采集的文章和关键词不符(不要58赶集这些大站点做啥词,你知道吗?)
优采云 发布时间: 2021-10-27 01:02采集的文章和关键词不符(不要58赶集这些大站点做啥词,你知道吗?)
SEO如何处理采集内容(中)
上次讲到处理采集内容的两个顺序步骤:
原创内容的处理
整理处理后的内容
第一部分是对原创内容的处理。上一篇主要是对html源代码信息的处理,没有说如何处理文本信息。
下面分享一下这个渣使用的一些方法,以及如何处理采集的内容文本...
原创采集内容文本信息的处理
这里忽略元数据的处理,因为元数据主要是添加逻辑映射。比如我公司的一个黄页的网站抓取了“XXX公司规模、商标、年营业额、法人信息”等元数据。我需要将这些元数据与本网站数据库中的相应公司进行比较。只是结盟。因为元数据是短文本,直接捡起来,不需要处理重复。
如果采集的内容是一大段连续的长文本,为了保证SEO效果,html源码处理后,也可以对文本进行处理。
文本信息处理,包括title和body两部分(不考虑人工修改,只考虑批处理)
标题
让我说SEO最重要和最核心的一点是“词”。其他 SEO 技术和技巧都是基于“选择正确的词”以取得出色的效果。
最终目标是让用户可能搜索的词出现在标题中。详情页标题的词应该搜索量小,百度搜索结果少,而不是热词,大家都抢着做的词。
首先,网页标题中出现的关键词越流行,成为收录的几率越低。这是肯定的,所以不要对像58赶集这样的大网站和采集网站做任何事情。跟着,除非你的体重很高,否则基本没用。
其次,在垂直行业领域和充满个性化搜索内容的领域,可以挖出很多竞争不大、有一定流量的词。垂直领域的这些词并不好找,因为它需要对行业的了解,单靠SEO工具并不容易找到。
个性化搜索内容领域,如节目开发、娱乐八卦等,总是充斥着个性化的搜索词,随着时间的推移,新的搜索行为也会不断产生。只要搜索引擎没有结束,这个字段就会一直充满搜索流量,所以仔细看看。很多热闹的、长流量的站的内容选择大都符合这个特点。与“招聘、二手车”等行业不同,用户的搜索行为基本一致。各站都抢了同一批词,全都饱和升温,流量自然难做。
采集如何在标题中插入搜索词
如果采集网站的目标,他们的标题本身不符合SEO,比如抓取一堆新闻标题,标题如何尽可能地聚焦用户可能搜索的词为了?这渣以前试过这些方法:
方法一:精简原标题
进行如下操作:
原创标题的分割
删除停用词
获取词缀词性
去掉形容词、副词、介词……等修饰语,保留原题主语、谓语、宾语,得到句子的词干
基于python的jieba模块的实现,可以通过预先分析大量的标题提取出要删除的修饰语,并附加到字典中。Github 有现成的轮子来提取句子的主干,比如 nltk。
好像1688部分产品页的标题就是这样做的。去掉了用户发布的产品名称中一些不相关的词缀,提取主干放在标题标签中。
方法二:插入搜索词
进行如下操作:
构建xunsearch或其他开源搜索,为采集标题创建索引
在搜索界面用事先保存好的搜索词(也就是要做的那些词)进行搜索
在搜索结果中出现的标题之前插入当前搜索词
比如原标题是:《斗鱼美女主播直播一夜睡过20万条人命》……,我想做的词是“斗鱼美女直播”,然后在标题前插入关键词 :《【斗鱼美女直播】】斗鱼美女主播直播一夜睡20万元
当然:“{强行插入搜索词}{浓缩原标题}”
方法三:在当前标题中插入派生词和已经收录搜索词的相关搜索词
进行如下操作:
抓取标题已经收录搜索词的百度相关搜索或下拉框,或者使用Word2vec算法分析其他抓取内容的正文,获得搜索词的同义词。
在标题中插入相关搜索或下拉词
如:“[{百度相关搜索词1}]{简明标题}”、“[{下拉框推荐词1}{原标题}]”……相互组合……
文本
正文的处理主要是针对重复性,尽量减少与原文内容的相似度,本渣采用了以下方法:
在正文的开头和结尾插入随机文本
例如,在当前标题中插入收录搜索词的相关搜索词:“这篇文章收录其他主题:{相关搜索词1} {相关搜索词2} {相关搜索词3}...”
例如插入当前页面的历史引用词,“用户通过{引用词1} {引用词2} {引用词3}...
比如提前准备一些通用的文本模板,随机调用
修改正文内容
基于pagerank提取关键词,textrank算法提取文本摘要,实际上是对文本内容进行精简,提取主要信息,最终可能获得50%左右的原创内容。
为了防止词数过少,可以提前使用k-means和tfidf找出当前文章文章的相似度,提取段落摘要用将最长的正词加到当前的文章中,作为词数的补码。
这样文章基本可读,符合中文语法,在词缀粒度上删除原文,一定程度上减少了搜索引擎对三字判断的重复识别, 可用于用户和搜索。发动机相对友好。虽然肯定不如人工编辑,但比市面上粗糙的同义词替换和段落增删软件要好很多。比原来的中文好。