“BERTSG”为搜狗搜索自研中文预训练模型,

优采云发布时间: 2021-06-22 05:17

　　近日，在CLUE（Chinese Language Understanding Evaluation Benchmark）的任务竞赛中，搜狗搜索技术团队基于自主研发的汉语预训练模型击败了包括华为盘古在内的一批强手。综合排名和阅读理解榜再次夺得第一，刷新行业记录。

　　“BERTSG”是搜狗搜索自主研发的模型，“HUMAN”是人的表现（不收录在播放器中）

　　不惧行业强挑战，搜狗搜索技术和算法尽显实力

　　作为中文理解领域最权威的评测基准之一，CLUE基于原创中文文本语料共开设了8个竞赛，包括文本相似度、分类、上下文推理和阅读理解。任务构成。此前，搜狗搜索长期以来一直霸占CLUE多任务大赛冠军宝座，但今年4月，遭遇华为、阿里巴巴达摩学院等竞争对手的强力挑战，华为甚至一度用其2000亿参数模型盘古夺冠。

　　就在近日，基于自主研发的中文预训练模型，搜狗搜索技术团队一举超越华为盘古，再次在CLUE总榜、分类榜、阅读榜上夺得冠军理解列表，展示了其在自然语义理解领域的实力。技术创新实力和领先的人工智能算法能力。

　　据了解，搜狗搜索技术团队在过去一年加大了对预训练模型研发的投入，已经完成了中国预训练模型从千亿到百亿的研发。目前，它正在开展1000亿个中国预训练模型等。模态预训练模型的研发。搜狗搜索技术团队自研的预训练模型在CLUE列表上的成绩比华为盘古的参数量更大，主要是因为它在训练语料、模型结构、和训练方法。

　　在训练语料方面，搜狗搜索技术团队依托自身作为第二大搜索引擎的基础优势，首先从数万亿网页中筛选出10T优质语料，依托搜狗搜索的内容理解技术和大- 规模集群系统。此外，2T最终语料选自10T优质语料，在保证语料内容质量的同时，也能保证内容的多样性，从训练语料中提高模型的训练效率和泛化能力.

　　在模型结构上，原BERT模型采用的是Post-LN结构。这种结构的缺点是训练超大模型时，如果不设置warmup，收敛效果会更差。而搜狗的预训练模型在结构上采用了Pre-LN，大大提高了训练效率。

　　在训练方式上，搜狗搜索技术团队做了两次创新和优化。首先，采用交叉思想预训练方法，引入比较学习训练方法，解决原创BERT模型学习到的cls token向量各向异性问题，大大增强了预训练模型的表示能力，使得下游任务效果明显提升。其次，加入了文章标题生成和段落顺序预测两个任务，进一步增强了文章预训练模型的理解能力。具体来说，在标题生成任务上，输入一个文章的内容和标题，对文章和标题都做词级掩码操作。文章mask 策略与 Roberta-wwm 采用的策略相同。标题掩盖了 80% 以上的单词。段落顺序预测任务的目标是预测段落之间的上下文关系。加入这两个预测任务后，预训练模型的效果得到显着提升。

　　搜狗搜索的NLP技术长期领先，产品成功落地，加速行业赋能

　　同时，自研的搜狗搜索预训练模型在CLUE总榜、分类总榜、阅读理解榜再次夺冠。这也意味着搜狗搜索在自然语言预训练、语义理解、长文本和短文本。该品类、阅读理解、问答等领域持续处于行业领先水平，彰显其在NLP方面的超强实力。在此之前，搜狗搜索还获得了国际阅读理论大赛CoQA等比赛的冠军。

　　其实，搜狗搜索之所以能在NLP领域长期处于领先地位，与搜狗长期专注于自然语言处理领域是分不开的。作为一家以AI为企业基因的公司，搜狗始终坚持以搜狗搜索、搜狗输入法等核心产品为核心的以语言为中心的AI战略，并成功进行了一系列AI技术创新和产品落地实践。 .

　　据了解，搜狗自研的预训练模型已经在搜狗的搜索产品中实现，大大提升了用户的搜索效率和体验。此外，相关技术在语言翻译、聊天机器人、知识图谱等领域也有广泛的应用。

0

2021-06-22

搜狗搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

“BERTSG”为搜狗搜索自研中文预训练模型,

0 个评论

发起人