原文: http://iamtrask.github.io/2017/06/19/randomness/作者: Andrew Trask 翻译:@Chen Quan宇宙是随机的吗?关于在日益可预测的世界中不可预测性的几点思考...TLDR: 我最近想知道宇宙是否真的是随机的,我想我会写下一些关于这个问题的想法。请注意,这篇文章更多的是分享我的个人经历,而不是教授技能或工具(与许多其他博客文章不同)。随时在Twitter上与我聊天这些想法,因为我本人仍在研究这些想法,我很想听听您的观点。牛津英语词典将随机性定义为“事件缺乏模式或可预测性”。我喜欢这个定义,因为它揭示了“随机性”更多地是关于观察者的预测能力,而不是事件本身。考虑此定义的以下结果:结果: 两个人可以准确地将同一事件描述为随机程度不同的事件。考虑一下两名气象学家何时试图预测今天下雨的可能性。仅允许一个人(我们称他们为“无知气象学家”)记录下该地区在1900年至2000年之间的降雨频率。第二个人(“智能气象学家”)也被允许提供此信息,但是第二个人也可以知道今天的日期。这两个人认为下雨的可能性非常不同。无知的气象学家会简单地说:“
昨天,我读到了一篇有趣的文章,内容令人困惑,即在使用批处理归一化训练神经网络时可以使用成倍增长的学习率时间表:李志远和Sanjeev Arora(2019)深度学习的指数学习进度表本文提供了这种可重分属性的理论见解和经验证明。尺度不变性这样做的原因归结为以下事实:批量归一化使神经网络的损失函数按比例缩放-按常数缩放权重不会更改批量归一化网络的输出或损失。事实证明,单独使用此属性可能会导致某些出乎意料且可能对优化有用的属性。我将使用2D玩具示例,通过这篇文章来说明尺度不变损失函数的某些属性-以及它们的梯度下降轨迹: 在这里,我画了一个具有尺度不变性的损失函数。损耗的值仅取决于角度,而不取决于权重向量的大小。从原点向外的沿任何径向线的损耗值是恒定的。尺度不变的简单后果是(论文的引理1)该函数的梯度始终与参数向量的当前值正交,并且您离原点越远,渐变的幅度就越小。这可能不太直观,但请考虑函数在原点周围的圆周上的行为。函数是相同的,但是随着半径的增加,将相同的函数拉伸到更大的圆上会变胖,因此其梯度会减小。这是一个有点混乱的颤动图,显示了上面函数的梯度: 由于原点周围的梯度会爆炸,所以颤动图很乱。
原文: https://www.ibm.com/blogs/research/2019/09/tts-using-lpcnet/ 作者: Zvi Kons, Slava Shechtman, and Alex Sorin 翻译:@Chen Quan使用LPCNet的高质量,轻量级和自适应文本语音转换(TTS)深度学习的最新进展通过更有效地学习说话者的语音和说话方式以及更自然地生成高质量的输出语音,极大地改善了语音合成(TTS)系统的开发。然而,为了产生这种高质量的语音,大多数TTS系统都依赖于大型且复杂的神经网络模型,这些模型难以训练,甚至在利用GPU时也无法进行实时语音合成。为了应对这些挑战,我们的IBM Research AI团队开发了一种基于模块化体系结构的神经语音合成新方法,该方法将三个深度神经网络(DNN)与网络输出的中间信号处理相结合。我们在Interspeech 2019的论文“ 使用LPCNet的高质量,轻量级和自适应TTS ”中介绍了这项工作。TTS体系结构轻巧,可以实时合成高质量的语音。每个网络都学习说话者语音的不同方面,从而可以有效地独立训练每个组件。图1:TTS
作者: Zygmunt Z. | 2012-08-09 | Kaggle, basics链接: http://fastml.com/what-you-wanted-to-know-about-mean-average-precision翻译: Nansen | 2019-10-30 | Cynomys,MLWhat you wanted to know about Mean Average Precision ?众所周知,如果此间有一群用户以及一些项目(比如电影、歌曲或者某些别的什么活儿之类的),每个用户都将会对对某些题目感兴趣因此响应客户需求,我们需要对每个用户推荐一些项目(不妨把客户请求推荐的项目数量设为x)之后用户将会对结果通过mean average precisionor (或者简称MAP), metric对结果进行评估确切地说,MAP @ x 就是在让我们为某个用户推荐“一定数量(以下用 x 代替)的项目”照应题目,接下来准确地来讲述什么是MAP什么是MAP?首先,我们先对其中的 M 进行剖析,此M既为mean,概括为所有用户的AP(average precisions)的
作者: Quan ChenXGBoost调优指南一. XGBoost介绍XGBoost算法可以给预测模型带来能力的提升。它具有很多优势:正则化标准GBM的实现没有像XGBoost这样的正则化步骤。正则化对减少过拟合也是有帮助的。实际上,XGBoost以“正则化提升(regularized boosting)”技术而闻名。并行处理XGBoost可以实现并行处理,相比GBM有了速度的飞跃。xgboost的并行是在特征粒度上的。我们知道,决策树的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点),xgboost在训练之前,预先对数据进行了排序,然后保存为block结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个block结构也使得并行成为了可能,在进行节点的分裂时,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。可并行的近似直方图算法。树节点在进行分裂时,我们需要计算每个特征的每个分割点对应的增益,即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下,贪心算法效率就会变得很低,所以xgboost
管理员 - 备案中
码农一枚,拥抱鸿蒙