实用文章:飞桨EasyDL文本分类:汽车网站文章如何实现自动推送

优采云 发布时间: 2022-10-28 00:24

  实用文章:飞桨EasyDL文本分类:汽车网站文章如何实现自动推送

  项目描述 业务背景

  作为汽车信息化应用网站,在汽车商务、汽车采购、汽车骑手组织等方面积累了多年的垂直信息产业。信息内容发布快。这些内容包括来自用户UGC的制作内容,平台和自营渠道打造的特色优质内容,以及定期在互联网上抓取的有针对性的内容网站。为保证信息的实时性,上述内容存储后需要根据标题快速推送到不同的栏目。

  经营困难

  目前职称分类主要依靠人工,人工成本高,效率低。如何构建AI模型,实现标题栏目自动匹配,迫在眉睫。作为汽车资讯网站,常用栏目包括汽车改装、自驾游记、新车点评、购车中心等。面对需要识别的标题,目前市面上没有通用的文​​本分类方案可以满足,因为业务场景太长尾,即只关注汽车,列名来源于自己开发,需要针对汽车场景定制化培训。

  解决方案

  公司前期试图通过组建AI算法团队来满足业务需求,但经过评估发现投入成本非常高。组建团队、购买机器资源、匹配运维人员,综合成本需要达到百万。企业使用EasyDL-文本分类(单标签)任务(如下图),仅用3周时间完成从零到一车文章标题自动分类的模型构建他的业余时间。并实际融入业务生产线应用。

  提示:因为每个文章需要推送到一列而不是多列,所以文章标题和列是一一对应的,即每个文章只有用一列标记就是这样,所以,选择文本分类(单标签任务)。

  数据准备

  第一步是明确需要发布的列的名称。在这个汽车资讯网站中,栏目包括汽车改装、新车评测、自驾游记、购车中心。第二步,对于每个列名,采集该列下常见的推文标题,一列下采集30-50个标题名。比如自驾游栏目对应的标题:2月最后一个周末我的Q7北京大话西游,汽车改装栏目对应的标题:自己动手,大功告成。第三步,形成可以上传到EasyDL进行训练的数据。您可以导入原创数据并使用 EasyDL 标注工具完成标注。这里原创数据要求为:Excel/txt单列数据(如下图):

  单击 [导入] 并选择 [未标记]。数据完成后,点击【标记】,通过平台内置的文本分类标注完成快速标注。标签为列名,标题可以用标签标注,如下图所示:

  

  您还可以在将训练数据上传到 EasyDL 之前对其进行处理。如果是训练待训练的数据,上传后即可开始训练,如下图:

  提示:如果上传原创数据,也可以通过平台自带的标注工具快速标注,如下图:

  在注释量大的情况下,可以开启上图右上角的智能注释功能。您只需要标注30%的文字,剩下的70%文字会在平台上自动标注,提高您的标注效率。

  模型训练

  当您的数据准备完成后,您可以点击【创建模型】完成模型创建,然后点击【训练模型】开始训练。考虑到信息化场景中的常见应用,最常见的集成方式是在企业APP或网站上集成在线API。对于企业来说,这种方式只需要将在线接口http接口与授权的ak结合起来,sk输入到自己的业务程序中即可运行。同时,可以利用公有云灵活的弹性扩缩机机制,根据实际调用量调整接口调用份额,降低模型调用成本,如下图所示:

  在选择算法时,如果对延迟没有特殊要求,建议使用高精度算法进行训练。优点是可以用更少的数据集获得高精度的结果。在选择筛选指标时,如果没有特殊要求,也可以默认选择精确率和召回率平衡的策略,可以使用平台的默认值。为了测试平台的模型效果,可以选择开启自定义测试集,即测试集与训练集不同。您可以查看此数据集下的模型效果。如果不启用,平台会自动提取训练数据。部分数据作为测试集展示模型效果。

  模型部署

  模型训练好后,如果对模型效果满意,可以选择公有云部署,在界面地址输入自定义名称,如下图:

  完成申请提交后,点击在线服务,即审核通过的服务将显示在您的在线服务列表中。您可以点击服务详情获取http地址。为保证您的接口调用的安全性和保密性,请您可以到控制台按照操作说明完成应用创建,然后就可以获取对应的接口AK和SK,保证调用的授权,如图在下图中:

  

  效果优化

  模型训练完成后,可以通过模型评估报告查看效果。从报告中四个标签的训练准确率表现来看,新车评测和购车中心准确率偏低,如下图所示:

  回过头来看原因,在前期的数据准备中,两个标签的数据量太小了。比如下图中,购车中心的数据只有15条,所以需要补充这个标签下的数据。同时在购车中心下发现title有两种不同的风格,每种风格的数据只有10个item也会影响训练准确率。因此,扣费的粒度是扩大购车中心标签下各款式标题的数据量,保证至少30-50项。

  常见问题

  问题一:为什么选择文本分类-单标签任务?

  在这个场景的业务逻辑下,每个title只对应一列,即一个文章只需要绑定推送到一列,所以选择单个标签,如果需要的话还需要添加一个文章 > 推送到多个相关列,即如果需要在一个标题上标注两个列名,选择文本分类-多标签任务。

  问题二:采集数据时,列标题样式不同怎么办?

  比如在购车中心栏下,既有【轩逸最高优惠14000】和【丰田精简版汉兰达上线,CVT+四驱,油耗只有4L】的10万以下,回应针对这种情况,在采集数据的同时,要采集并保证各种风格的数据标题的数量。

  问题3:作为信息网站,调用量大,并发量大。有什么优惠政策吗?

  接口按通话量计费,实行分级计费。通话量越大,单价越低。同时提供call point套餐(10% off)和QPS overlay套餐(临时高并发需求)。详情请参阅: 。

  技巧:简单几行代码整合奶盘伪原创api让管理网站更轻松

  

  几行代码整合奶盘伪原创API,让管理网站更简单目前想要网站获得好的排名,无非就是更新一下网站的内容是实时的,但是大部分站长,包括作者本人,都不是文科出身,没有好的文采,只能借用一些文章互联网,而这种类型的文章在百度一般没有很好的排名,所以后来有人研究了伪原创,作者一直在更新文章和伪原创,确实节省了很多时间。刚接触伪原创的时候,还不是很了解。我在百度上搜索了“伪原创”,发现了很多伪原创软件。我也用了很多软件,但效果都不是很好。伪原创后面的内容要么不一致,要么句子不流畅,总之改得乱七八糟。后来经站长朋友介绍,开始使用排名第一的“奶盘伪原创”。笔者发现这个网站伪原创之后的文章的质量还是一样的。是的,我一直在使用它,因为我可以自己定义词库以使该工具更强大。唯一的缺点就是经常要复制粘贴,有点麻烦。这几天,我发现官网有新的“应用电源AP开放”更新。正好作者的推论也可以调整,所以我试着调整一下。以下是笔者的整合过程,与广大站长交流。dedeems版本:dedecmsV5.7SP1正式版GBKAPI地址:启动soap服务修改PHP.ini文件,找到;extension=php_soap.dll去掉前面的分号,IIS或apache需要的文件位置修改:dede\article_add.php 描述:蓝色部分代码是第一行要添加的代码 header(´content-type:text/html;charset=utf-8´);$iniini_set(´soap.wsdl_cache_enabled ´,´0´);require_once(dirname (__FILE__).´/config.

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线