研究生证明了一个世纪以来的数学定律可以加速人工智能的学习。

от автора

в

根据美国麻省理工学院的研究,对对称性进行编码有助于语言模型在较少数据上学习。这一发现是一位研究生证实的,他将韦伊定律应用于神经网络工作,并阐明了数据的对称性与训练样本大小之间的联系。 要使语言模型正常运行,需要在足够数量的数据(训练集)上对其进行训练。然后将算法应用于其他数据进行测试,这些数据称为验证集。神经网络在验证中的误差越小,算法的准确性和工作结果质量就越高。 有时为了训练算法,需要大量数据。如果有足够的数据,训练就会花费很长时间。当数据不足时,例如在计算化学中,这直接影响研究结果。麻省理工学院的研究生Behrooz Tahmasebi在大学时代就提出,可以将机器学习视为微分几何的一个方面。 Tahmasebi使用的定律是一个多世纪前由德国数学家赫尔曼·韦伊尔提出的。他提出的公式通常应用于物理过程,例如弦的振动。研究生指出:这一定律涉及对输入数据的评估(衡量谱信息的复杂性),但未考虑对称性。Tahmasebi认为,经过调整的公式可以简化机器学习过程。 与慕尼黑工业大学副教授、麻省理工学院客座教授Stefanie Jegelka共同合作,Tahmasebi制定并证明了一条定理,展示了输入数据中对称性数量与神经网络训练速度之间的线性关系。如果算法在可以分为两个对称部分的图像上进行训练,则在对称性编码时,神经网络模型需要“记住”更少的信息(图片的一半),并且需要花费更少的时间。如果在每个训练样本组件中有10个对称片段,则神经网络的训练时间将减少10倍。同时算法的准确性不会受到影响,甚至可能会提高。 通过Tahmasebi和Jegelka的发现,可以解决更不明显的问题。例如,如果需要让神经网络选择所有包含数字“3”的图片。如果不考虑对称性,算法将关注数字“3”的位置(顶部、底部、中间、右侧等)和方向(倒置、倾斜)。当编码数据的对称性时,模型将能够识别图片中的数字“3”,而不管其放置在何处。 在一篇科学论文中,该研究得到了机器学习和计算神经科学会议高度评价,并且其预印本可在arxiv.org上获得。Tahmasebi和Jegelka得出了另一个重要结论。如果利用多维对称性,优势将是指数级的。研究人员的第二个定理表明,这是可以实现的最大结果。该算法是通用的:可以应用于任何对称性,包括未来可能被发现的对称性。


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *