#今日论文推荐#超越Transformer,清华、字节大幅刷新并行文本生成SoTA性能|ICML 2022

并行文本生成模型(非自回归模型)是一种新的文本生成范式。与传统自回归模型中的逐词迭代生成不同,它通过单次并行预测显著减少了解码时的延迟。
近年来,并行生成模型发展迅猛。在WMT21机器翻译大赛中,GLAT模型 [1,2] 结合知识蒸馏、数据增广等技术,在德英翻译方向夺冠,并超越了一大批自回归模型。

在最新出炉的 ICML 2022 的论文中,清华大学和字节跳动联合推出了新的并行生成模型DA-Transformer。该方法相比之前的并行生成模型,其性能获得了飞跃式的增强:

  • DA-Transformer不再依赖知识蒸馏,彻底摆脱自回归模型参与训练;
  • 大幅超越之前所有的并行生成模型,最高涨点 4.57 BLEU;
  • 首次在未使用知识蒸馏的情况下,接近并超越自回归 Transformer 性能,真正实现又快又好的文本生成。(最高+0.60 BLEU,7~14倍解码加速)

论文题目:Directed Acyclic Transformer for Non-Autoregressive Machine Translation.
详细解读:https://www.aminer.cn/research_report/62d785bb7cb68b460fef684ficon-default.png?t=M666https://www.aminer.cn/research_report/62d785bb7cb68b460fef684f
AMiner链接:https://www.aminer.cn/?f=cs

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐