锡林郭勒变压器:语言理解的新型神经网络架构_锡林郭勒常见问题_锡林郭勒变压器厂家_锡林郭勒华屹变压器厂
华屹变压器制造有限公司欢迎您!产品中心/联系方式/收藏本站

锡林郭勒s11油浸式变压器,锡林郭勒scb10干式变压器,锡林郭勒变压器厂,锡林郭勒变压器厂家

锡林郭勒变压器厂家优质变压器供应商-47年国营老厂-支持货到付款

服务热线:0635-8419998
150 6955 1988

华屹变压器厂提供安全、稳定、可靠的变压器设备
当前位置:锡林郭勒首页 » 锡林郭勒常见问题 » 锡林郭勒变压器:语言理解的新型神经网络架构

锡林郭勒变压器:语言理解的新型神经网络架构

文章出处:http://xilinguole.lxnmpt.com/   责任编辑:华屹变压器厂   发布时间:2018-05-29    点击数:156   【
锡林郭勒变压器:语言理解的新型神经网络架构

神经网络,特别是反复发作的神经网络(RNNs),现在是处于领先的方法来理解语言等任务的核心语言模型,机器翻译和问题回答。在注意是所有你需要 我们引入了锡林郭勒变压器的基础上,我们认为是特别适合于语言理解自我注意机制一种新的神经网络结构。

在我们的论文中,我们展示了锡林郭勒变压器在德语和英语学术英语方面的反复和卷积模型都胜过法语翻译基准。在更高的翻译质量的基础上,锡林郭勒变压器需要较少的计算量来训练,更适合现代机器学习硬件,将训练加快一个数量级。

标准WMT newstest2014英语到德语翻译基准的单一模型的BLEU分数(更高)更好。

标准WMT newstest2014英语到法语翻译基准的单一模型的BLEU分数(更高)更好。

语言理解的准确性和效率

神经网络通常通过产生固定或可变长度的向量空间表示来处理语言。在开始表示单词或甚至单词之后,他们聚合来自周围单词的信息,以确定上下文中给定位语言的含义。例如,在句子“我在交叉之后到达银行”这个句子中,决定“银行”这个词的最可能的含义和适当的表示方式,要求知道句子是否以“...路”结尾。河“。

近年来,RNN已经成为翻译的典型网络架构,从左到右或从右到左依次处理语言。一次读一个字,这迫使RNNs执行多个步骤,做出依赖于远离彼此的词的决定。处理上面的例子,RNN只能一步一步地阅读“银行”和“河”之间的每个单词后才能确定“银行”可能指向河岸。先前的研究表明,大致来说,决策需要的步骤越多,经常性网络越难学习如何做出决策。

RNN的顺序性质也使得更难以充分利用诸如TPU的现代快速计算设备和GPU,它们并行且不顺序处理。卷积神经网络(CNN)的连续性远低于RNN,但是在CNN架构(如ByteNet或ConvS2S)中,组合来自远程输入部分的信息所需的步骤数量随着距离的增加而增加。

锡林郭勒变压器

相比之下,锡林郭勒变压器只执行一个小的,恒定数量的步骤(根据经验选择)。在每个步骤中,它应用自我注意机制,直接建模句子中所有单词之间的关系,而不管其各自的位置。在前面的例子中,“过河后抵达银行”,确定“银行”一词是指河岸,而不是金融机构,变形金刚可以学会立即着手“河流”并做出这一决定。事实上,在我们的英语 - 法语翻译模型中,我们正好观察到这种行为。

更具体地说,为了计算给定单词“bank”的下一个表示,例如,Transformer将其与句子中的每个其他单词进行比较。这些比较的结果是句子中每个其他单词的注意分数。这些注意分数决定了其他单词应该对下一个“银行”表示做出贡献。在这个例子中,在计算“银行”的新表示时,除歧义的“河”可能会得到很高的关注度。然后将注意分数用作加权平均值的加权平均值,该加权平均值被馈送到完全连接的网络中以产生“银行”的新表示,反映该句子在谈论河岸。

下面的动画说明了如何将Transformer应用于机器翻译。用于机器翻译的神经网络通常包含读取输入句子并生成其代表的编码器。然后,解码器在查询由编码器生成的表示的同时逐个地生成输出语句。锡林郭勒变压器首先为每个单词生成初始表示或嵌入。这些由未填充的圈子表示。然后,使用自我关注,它聚合来自所有其他单词的信息,生成由填充的球代表的整个上下文通知的每个单词的新表示。然后该步骤对所有单词并行重复多次,连续生成新的表示。

解码器操作类似,但从左到右一次生成一个单词。它不仅参与其他先前生成的单词,而且还涉及由编码器生成的最终表示。

信息流

超越计算性能和更高的精度,锡林郭勒变压器的另一个有趣的方面是,我们可以可视化网络在处理或翻译给定单词时考虑的句子的其他部分,从而深入了解信息如何通过网络传播。

为了说明这一点,我们选择了一个涉及机器翻译系统非常有挑战性的现象的例子:融合解决方案。考虑以下句子及其法语翻译:

很明显,在第一句话中,“it”是指动物,在第二句话中。当这些句子翻译成法语或德语时,“it”的翻译取决于它所指的名词的性别,法语“动物”和“街道”中的性别有不同的性别。与目前的Google Translate模型相反,Transformer将这两个句子翻译成法语。在计算“...”这个词的最终表示方式时,可以看出编码器所关注的词语,揭示了网络如何做出决定。在其中一个步骤中,“变形金刚”明确指出了两个名词“它”可以参考,各自的注意力反映了其在不同背景下的选择。

鉴于这种洞察力,变形金刚对语法选区解析的经典语言分析任务也表现得非常出色,这是自然语言处理社区几十年来一直以高度专业化的系统攻击的任务。

事实上,在很少的适应性的情况下,我们用于英语到德语翻译的同一个网络胜过以前提出的对于选区解析的方法之一。

下一步

我们对变形金刚的未来潜力感到非常兴奋,并已经开始将其应用于其他不仅涉及自然语言,还涉及非常不同的输入和输出(如图像和视频)的问题。我们正在进行的实验由Tensor2Tensor图书馆大大加速,我们最近开始采购。事实上,下载图书馆后,您可以通过调用一些命令来训练您自己的Transformer网络进行翻译和解析。我们希望你能试一下,期待看到社区可以用变形金刚做什么。

致谢

本研究由Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N. Gomez和?ukaszKaiser进行。另外感谢David Chenell创建上面的动画。

此文关键字:锡林郭勒变压器厂