seq搜索引擎优化至少包括那几步?(LightSeq本次新版训练加速引擎发布,支持Transformer的完整加速LightSeq)

优采云 发布时间: 2022-04-13 10:17

  seq搜索引擎优化至少包括那几步?(LightSeq本次新版训练加速引擎发布,支持Transformer的完整加速LightSeq)

  近年来,随着计算机硬件算力的提升,越来越多的机器学习和人工智能技术在行业落地。基于Transformer的神经网络机器翻译技术就是最经典的案例之一。

  为了获得高质量的翻译结果,研究人员经常使用更大的神经网络模型,这些模型具有更长的模型训练周期和更大的在线推理(翻译)延迟。

  Volcano Translation 团队一直致力于这方面的优化。早在 2019 年 12 月,我们就开源了 LightSeq 推理加速引擎,这是业界第一个快速良好的实现,解决了翻译延迟高的问题。

  而最近,新版LightSeq训练加速引擎终于发布了!

  这一次,我们在整个过程中优化了翻译模型训练过程。原本需要三天训练的模型,通过LightSeq可以在一天内以最快的速度完成。不仅适用于行业,也适用于 GPU 算力有限的研究团队。

  

  LightSeq 这次增加了以下功能:

  - 支持Transformer的全面加速

  LightSeq是业界首个完全支持整个Transformer模型加速的训练引擎,包括词嵌入层、编码层、解码层、损失函数层等高效的自定义层。

  至此,LightSeq 打通了 Transformer 模型从训练到推理部署全流程的加速,为研究人员提供了极大的便利。

  - 训练速度快

  LightSeq 训练非常快。比如在WMT14英德机器翻译任务上,使用NVIDIA最新的训练显卡A100,相比主流的序列生成库,LightSeq最快只需要三分之一的训练时间。

  - 功能齐全,易于使用

  LightSeq 提供高效的 TensorFlow 和 PyTorch 自定义层供用户灵活使用,并可自由插入 Hugging Face 等主流训练库。

  此外,它还与Fairseq、NeurST等当前流行的训练库深度集成。安装LightSeq后,用户只需修改几个命令行参数即可在这些训练库上使用LightSeq。

  - 提供丰富的二次开发工具

  LightSeq 提供了完整的 CUDA 内核和 Transformer 自定义层的单元测试功能,可以测试自定义算子的正确性,分析运行时间和加速比,帮助开发者更快地验证函数的正确性和有效性。

  LightSeq训练引擎通过算子操作融合、动态内存复用等技术,可将训练时间缩短多达三分之一,速度提升3倍以上!详细评测报告可查看↓

  新版LightSeq训练加速引擎全方位提升了Transformer模型的训练速度,打通了训练和推理部署的全流程,使用灵活方便,大大降低了研究人员训练模型的成本。可以预见,未来大量的 NLP 应用场景如机器翻译、文本生成、摘要、对话生成、情感分析等都可以使用 LightSeq 进行训练和推理。

  火山翻译

  LightSeq 地址:

  此外,我们还开源了 Volcano Translation 的训练引擎 NeurST,深度结合了 LightSeq 的训练和推理加速。欢迎您试用。

  如果您在使用过程中遇到任何问题,您也可以直接通过微信公众号后台或邮件联系我们。

  NeurST 地址:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线