解读:美数“页面关键词”提取技术的实践与效果
优采云 发布时间: 2020-09-04 11:56梅树“ 关键词页”提取技术的实践与效果
在Internet时代,尽管Internet便利了人们的生活,但大量的网络数据和信息也已成为具有巨大潜力的宝贵资源。尤其对于营销人员而言,企业当前拥有的数据已不足以满足其日益精确和有效的营销需求。因此,有针对性的采集,从庞大的非结构化互联网数据库中提取和分析有价值的信息已成为迫切需要了解消费者并制定正确的营销策略的
。
基于此,Meishu Technology推出了“页面关键词”提取技术,该技术使用采集器捕获用户的浏览行为,然后使用算法快速构建不规则页面,从而进一步挖掘有价值的数据,以指导广告客户进行准确的展示位置
从“ 关键词页”中提取的核心价值
1、提高人群画像的准确性和丰富度
在数字营销时代,广告已从媒体购买转向受众购买,精确营销逐渐成为主流。精准营销的核心是用户画像。所谓的用户肖像就是通过用户的在线浏览行为,搜索行为,购物行为等来勾勒出用户的业务概况,以帮助广告主从广泛的受众中准确地定位目标群体。 Meishu“页面关键词”提取技术基于用户在线页面浏览行为的全面整合,提取关键词以高度概括页面主题,然后推断和描绘受众对该领域的兴趣程度甚至反映了观众的真实三个观点。从而提高人群画像的准确性和丰富度,并更好地满足广告商对人群数据采集和见解的需求。
2、基于页面内容的广告定向投放
想象一下,您的新房子最近急需翻新。当您查看“新手必看的装饰策略”时,您仅在页面底部看到了一个由家居装饰品牌推送的绿色油漆产品广告。这可能吗?戳您的G点,甚至引起您的购物欲望? Meishu的“ page 关键词”提取技术只是为Meishu DSP后续的“ page 关键词”目标放置做准备。也就是说,通过分析每个页面的文本,语言,主题,结构和其他元素,提取关键词,然后将公司的促销信息与相应的关键词一起放在受众的当前页面上。例如,在上面的示例中,一家家居装饰公司为其产品设置了“装饰” 关键词,系统将在带有此关键词的所有网页上显示客户的广告。
“页面关键词”提取的实现步骤
备注:在实际的操作过程中,“ 关键词页”提取技术的过程和所应用的算法是复杂而复杂的。编辑将仅从入门算法中选择这些算法中的几种,以使读者理解该技术具有初步的知识和理解。
第一步:文本提取
如果将“ 关键词”提取的完成与烹饪美味的菜肴进行比较,则可以说文本提取是烹饪之前的必要步骤-选择菜肴。不管厨师有多好,用黄叶,烂叶和泥做美味的菜肴都是不可能的。因此,能否有效,准确地提取页面文本是后续提取的主要前提关键词。
如何提取文本? “基于行块分布函数的一般网页文本提取”算法可以达到较好的效果。众所周知,除了文本之外,大多数网页还收录很多噪音信息,例如网站导航信息,相关链接和广告以及某些脚本语言。线块分布算法可以对检索到的页面进行清理,去噪和结构化,然后高效,准确地定位页面文本。
(算法思路流程图)
第2步:分词处理
提取文本之后,在细化文本主题之前有一个必不可少的步骤,即对文档进行分段。所谓的单词分割(Word Segmentation)是根据特定规范将连续单词序列(一个句子)重组为单词序列的过程。分词是后续文本挖掘的基础,对于文章的文章,成功的分段可以达到计算机自动识别文章内容的效果。
现有的分词算法有很多类型,我们的重点是“反向最大匹配算法”(称为RMM方法),该算法已被实验证明是更好的方法,错误率更低。也就是说,从句子(或文章)的末尾开始处理,并在每次匹配失败时都删除前一个汉字。
算法应用思路:
([1)循环读取每个句子S;
([2)将句子中的单词数设置为n;
(3)设置最大字长,即要拦截的最大字长max;
(4)从句子中将字符串子词从n-max取到n,然后转到同义词库中找出是否存在该词。如果存在,则转到5,否则,转到6;
(5)记住子词,从n-max支付到n,并继续执行4,直到n = 0;
([6)设置max-1,然后执行4。
带栗子:
输入示例语句:S1 =“为装饰省钱的提示”;
定义:最大字长MaxLen = 3; S2 =``“”;分隔符=“ /”;
假设有一个词汇:...,装饰,省钱,技巧,...;
反向最大匹配分词算法的过程如下:
([1) S2 =“”; S1不为空,从S1的右边取出候选子字符串W =“ tips;
([2)在词汇表中查找词汇“小费”,将W添加到S2,S2 =“ tips /”,然后从S1中删除W,这时S1 =“ decoration province Money”; <//p
p([3) S1不为空,因此从S1的左侧获取候选子字符串W =“ repair and save money”;/p
p([4)检查词汇表,W不在词汇表中,删除W的最左边的单词,得到W =“ save money”;/p
p([5)检查词汇表,在词汇表中“省钱”,将W添加到S2,S2 =“ save money / tips /”,然后从S1移除W,此时S1 =“ Decoration” ;/p
p([6)查找词汇表,在词汇表中“装饰”,将W添加到S2,S2 =“ decoration / save money / tips /”/p
p然后从S1删除W,此时S1 =“”;/p
p([7) S1为空,输出S2作为分词结果,分词处理结束。/p
p第3步:关键词提取/p
p我怎么知道用户的兴趣和重点在哪里?我们需要分析文章的主题,即知道用户“观看了”什么!然后,在没有人工干预的情况下,我们如何才能准确地提取页面关键词并总结主题特征?应用TF-IDF,一种常用的加权技术算法进行信息检索和数据挖掘。/p
p此算法在计算TF(项频率)和IDF(逆文档频率)之后,使用TF * IDF获得单词的TF-IDF值。值越大,单词对文章的重要性越强。最后,选择前几个单词作为文章的关键词。/p
p算法应用思路:/p
p([1)计算单词频率/p
pimg src='http://science.china.com.cn/images/attachement/jpg/site555/20161122/74de2b6d888a199e5c6c2e.JPG' alt=''//p
p示例:如果文档中的单词总数为100,并且单词“ decoration”出现3次,则文档中单词“ decoration”的词频为3/100 = 0. 03。/p
p([2)计算反文档频率/p
pimg src='http://science.china.com.cn/images/attachement/jpg/site555/20161122/74de2b6d888a199e5c6c2f.JPG' alt=''//p
p示例:如果在1000个文档中出现了“翻新”一词,而在我们的历史记录中累积的文档总数为10,000,000,则反向文件的频率为log(10,000,000 / 1,00 0) = 4。/p
pp>
([3)计算TF-IDF
示例:(从上例继续),TF-IDF值为0. 03 * 4 = 0. 12。
“页面关键词”提取的实际效果
目前,Meishu使用爬虫技术对主流网站 500万+高质量页面(平均每天覆盖20亿PV)进行爬取以提取页面关键词;并进一步执行关键词行业分类标签管理,同义词库收录了100,000多个热门频率词。在准确和个性化的推荐风行一时的时候,Meishu“ page 关键词”提取技术基于全面,准确和真实的用户浏览行为数据信息,并实现了全景和丰富的用户肖像描述。它还可以帮助广告商和代理商深入了解受众的浏览行为和场景,从而使广告投放时间恰到好处,从而减少对用户的干扰。从目前的运营反馈结果来看,该技术在实际广告中的应用可以使覆盖率提高约20%,从而全方位提高展示广告的效果!