软文采集(本发明涉及营销软文识别技术领域,尤其涉及一种软文识别方法)
优采云 发布时间: 2021-11-10 21:07软文采集(本发明涉及营销软文识别技术领域,尤其涉及一种软文识别方法)
本发明涉及营销软文识别技术领域,尤其涉及一种营销软文识别方法。
背景技术:
软文营销是指通过具体的概念诉求,让消费者进入公司设定的“思维圈”,呈现事实和理由,利用强大的针对性心理攻击,快速实现产品销售的词语。方式和口头交流。例如:新闻、第三方评论、采访、采访、口耳相传。软文是一种文本模式,基于特定产品的概念诉求和问题分析,为消费者提供有针对性的心理指导。本质上是通过广告的形式实现企业软渗透的经营策略,通常借助文字表达和舆论传播,使消费者认同一定的观念、观点和分析思路,
由于网络信息的复杂性,网友们在阅读文章时,并不知道什么是营销软文。很多小说标题点击进去后其实就是广告。为此,本发明提出了一种营销软文识别方法。
技术实现要素:
本发明的目的是为了解决现有技术存在的不足,提出一种营销软文识别方法。
为实现上述目的,本发明采用以下技术方案:
一种营销软文识别方法,包括以下步骤,
s1、选择对应的营销软文作为样本,构建原创营销软文识别模型的样本集;
s2。获取样本集的样本标题数据和样本正文数据,根据样本标题数据和样本正文数据训练原创营销软文识别模型,得到训练后营销软文识别模型;
s3、获取待识别的营销标题数据和正文数据软文;根据训练后营销软文识别模型,对营销软文进行识别软文标题数据和文本数据,以及标题之间的相似度信息数据,获取文本数据;
s4,对于相似度小于30%的营销软文,采集在第一个采集区域,对于相似度超过70%的营销软文,在第二个区域采集采集区,用于营销软文,相似度在30%到70%之间,采集在第三个采集区。
最好是智能拆解采集的营销软文中的标题,拆解成多组词汇,多组词汇与样本集中的数据一一对比,得到营销软文 标题的相似度。
优选地,对网络软文上多篇相似度高的营销文章进行多重识别处理。营销软文通常会同时在各大网站或平台发布。因此,我们需要重点检查类似的营销软文。
优选地,获取样本集合的样本标题数据和样本正文数据包括:获取样本标题的标题词,根据标题词构造对应的样本标题数据;获取样本主体的主体词,并根据主体词构造对应的样本主体数据。
优选地,位于第一采集区域的软文不做任何处理,位于第二采集区域和第三采集区域的软文定义为marketing软文,标记为marketing软文。
本发明提出的一种营销软文识别方法,获取样本集的样本标题数据和样本正文数据,并根据样本标题数据和样本正文数据对原创营销软文识别模型进行比较后训练,训练后得到营销软文识别模型。对于相似度小于30%的营销软文,采集在第一个采集区域,对于相似度超过70%软文的营销,采集在第二个< @采集区域,用于营销软文,相似度在30%到70%之间,采集在第三个采集区域,根据标题和内容准确识别软文是否为市场营销软文,以及市场营销软文 有标记,方便读者阅读。本发明方法合理巧妙,有效识别营销软文,适合推广使用。
详细方法
下面对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例只是本发明一部分实施例,而不是全部实施例。
例子
本发明提出的营销软文识别方法包括以下步骤:
s1、选择对应的营销软文作为样本,构建原创营销软文识别模型的样本集;
s2。获取样本集的样本标题数据和样本正文数据,根据样本标题数据和样本正文数据训练原创营销软文识别模型,得到训练后营销软文识别模型;
s3、获取待识别的营销标题数据和正文数据软文;根据训练后营销软文识别模型,对营销软文进行识别软文标题数据和文本数据,以及标题之间的相似度信息数据,获取文本数据;
s4,对于相似度小于30%的营销软文,采集在第一个采集区域,对于相似度超过70%的营销软文,在第二个区域采集采集区,用于营销软文,相似度在30%到70%之间,采集在第三个采集区。
本实施例对采集的营销软文中的标题进行智能拆解,拆解成多套词汇,将多套词汇与样本集中的数据一一对比,得出获得营销软文标题的相似度。
在本实施例中,多次识别互联网上相似度高的多篇营销文章。营销软文通常同时发布在各大网站或平台上。因此,需要重点调查高相似度营销软文。
在本实施例中,获取样本集合的样本标题数据和样本正文数据包括:获取样本标题的标题词,根据标题词构造对应的样本标题数据;获取样本正文的正文词,并根据文本词构造对应的样本文本数据。
本实施例中,位于第一采集区域的软文不做任何处理,位于第二采集区域和第三采集区域的软文定义@>区域为marketing软文,标记为marketing软文
本发明获取样本集的样本标题数据和样本正文数据,根据样本标题数据和样本正文数据训练原创营销软文识别模型,得到训练后营销软文 识别模型。对于相似度小于30%的营销软文,将在第一个采集区域采集,对于相似度超过70%的软文,将被采集在第二个采集区域采集,对于相似度在30%到70%之间的营销软文,在第三个采集区域采集,可以准确识别软文是否为营销软文,并标注营销软文,方便读者阅读。
以上仅为本发明的优选具体实施例而已,本发明的保护范围并不限于此。凡在本发明公开的技术范围内熟悉本技术领域的人员,根据本发明的技术方案,对其发明构思的等同替换或变更,均应收录在本发明的保护范围内。
技术特点:
技术总结
本发明属于营销软文识别技术领域,具体公开了一种营销软文识别方法。提出如下方案,包括以下步骤,S1,选择对应的营销软文作为样本,构建原创营销软文识别模型的样本集;S2,获取样本集的样本标题数据和样本正文数据,将原创营销软文与样本标题数据和样本正文数据进行比较训练识别模型,得到训练后营销软文@ > 识别模型;S3、获取待识别的营销软文的标题数据和文本数据;根据训练后营销软文识别模型,对营销< 识别待识别的营销软文的标题数据和文本数据,得到标题数据与文本数据的相似度信息。本发明方法合理、巧妙、有效识别营销软文,适合推广使用。
技术研发人员:陈富
受保护的技术用户:
技术研发日:2018.11.29
技术发布日期:2019.03.12