seq搜索引擎优化至少包括那几步?(LightSeq本次新版训练加速引擎发布,支持Transformer的完整加速LightSeq)
优采云 发布时间: 2022-04-13 10:17seq搜索引擎优化至少包括那几步?(LightSeq本次新版训练加速引擎发布,支持Transformer的完整加速LightSeq)
近年来,随着计算机硬件算力的提升,越来越多的机器学习和人工智能技术在行业落地。基于Transformer的神经网络机器翻译技术就是最经典的案例之一。
为了获得高质量的翻译结果,研究人员经常使用更大的神经网络模型,这些模型具有更长的模型训练周期和更大的在线推理(翻译)延迟。
Volcano Translation 团队一直致力于这方面的优化。早在 2019 年 12 月,我们就开源了 LightSeq 推理加速引擎,这是业界第一个快速良好的实现,解决了翻译延迟高的问题。
而最近,新版LightSeq训练加速引擎终于发布了!
这一次,我们在整个过程中优化了翻译模型训练过程。原本需要三天训练的模型,通过LightSeq可以在一天内以最快的速度完成。不仅适用于行业,也适用于 GPU 算力有限的研究团队。
LightSeq 这次增加了以下功能:
- 支持Transformer的全面加速
LightSeq是业界首个完全支持整个Transformer模型加速的训练引擎,包括词嵌入层、编码层、解码层、损失函数层等高效的自定义层。
至此,LightSeq 打通了 Transformer 模型从训练到推理部署全流程的加速,为研究人员提供了极大的便利。
- 训练速度快
LightSeq 训练非常快。比如在WMT14英德机器翻译任务上,使用NVIDIA最新的训练显卡A100,相比主流的序列生成库,LightSeq最快只需要三分之一的训练时间。
- 功能齐全,易于使用
LightSeq 提供高效的 TensorFlow 和 PyTorch 自定义层供用户灵活使用,并可自由插入 Hugging Face 等主流训练库。
此外,它还与Fairseq、NeurST等当前流行的训练库深度集成。安装LightSeq后,用户只需修改几个命令行参数即可在这些训练库上使用LightSeq。
- 提供丰富的二次开发工具
LightSeq 提供了完整的 CUDA 内核和 Transformer 自定义层的单元测试功能,可以测试自定义算子的正确性,分析运行时间和加速比,帮助开发者更快地验证函数的正确性和有效性。
LightSeq训练引擎通过算子操作融合、动态内存复用等技术,可将训练时间缩短多达三分之一,速度提升3倍以上!详细评测报告可查看↓
新版LightSeq训练加速引擎全方位提升了Transformer模型的训练速度,打通了训练和推理部署的全流程,使用灵活方便,大大降低了研究人员训练模型的成本。可以预见,未来大量的 NLP 应用场景如机器翻译、文本生成、摘要、对话生成、情感分析等都可以使用 LightSeq 进行训练和推理。
火山翻译
LightSeq 地址:
此外,我们还开源了 Volcano Translation 的训练引擎 NeurST,深度结合了 LightSeq 的训练和推理加速。欢迎您试用。
如果您在使用过程中遇到任何问题,您也可以直接通过微信公众号后台或邮件联系我们。
NeurST 地址: