seo文章采集工具(下本58赶集这些大站点做啥词,你知道吗? )
优采云 发布时间: 2021-10-06 23:19seo文章采集工具(下本58赶集这些大站点做啥词,你知道吗?
)
审查
上次讲到处理采集内容的两个连续步骤:
第一部分是对原创内容的处理。上一篇主要是对html源代码信息的处理,没有说如何处理文本信息。
下面分享一下这个渣使用的一些方法,以及如何处理采集的内容文本...
原创采集内容文本信息的处理
这里忽略元数据的处理,因为元数据主要是添加逻辑映射。比如我公司的一个黄页的网站抓取了“XXX公司规模、商标、年营业额、法人信息”等元数据。我需要将这些元数据与本网站数据库中的相应公司进行比较。只是结盟。因为元数据是短文本,直接捡起来,不需要处理重复。
如果采集的内容是一大段连续的长文本,为了保证SEO效果,html源码处理后,也可以对文本进行处理。
文本信息处理,包括title和body两部分(不考虑人工修改,只考虑批处理)
标题
让我说SEO最重要和最核心的一点是“词”。其他 SEO 技巧和技巧是基于“选择正确的词”以取得出色的效果。
最终目标是让用户可能搜索的词出现在标题中。详情页标题的词应该搜索量小,百度搜索结果少,而不是热词,大家都抢着做的词。
首先,网页标题中出现的关键词越流行,成为收录的几率越低。这是肯定的,所以不要对58赶集这样的大网站做任何事情,只是一个采集网站。跟着,除非你的体重很高,否则基本没用。
其次,在垂直行业领域和充满个性化搜索内容的领域,可以挖出很多竞争不大、有一定流量的词。垂直领域的这些词并不好找,因为它需要对行业的了解,单靠SEO工具并不容易找到。
个性化搜索内容领域,如节目开发、娱乐八卦等,总是充斥着个性化的搜索词,随着时间的推移,新的搜索行为也会不断产生。只要搜索引擎没有结束,这个字段就会一直充满搜索流量,所以仔细看看。很多热闹的、长流量的站的内容选择大都符合这个特点。与“招聘、二手车”等行业不同,用户的搜索行为基本一致。各站都抢了同一批词,全都饱和升温,流量自然难做。
采集如何在标题中插入搜索词
如果采集网站的目标,他们的标题本身不符合SEO,比如抓取一堆新闻标题,标题如何尽可能地聚焦用户可能搜索的词为了?这渣以前试过这些方法:
方法一:精简原标题
进行如下操作:
基于python的jieba模块的实现,可以通过预先分析大量的标题提取出要删除的修饰语,并附加到字典中。Github 有现成的轮子来提取句子的主干,比如 nltk。
好像1688部分产品页的标题就是这样做的。去掉了用户发布的产品名称中一些不相关的词缀,提取主干放在标题标签中。
方法二:插入搜索词
进行如下操作:
比如原标题是:《斗鱼美女主播直播一夜睡过20万条生命》……,我想做的词是“斗鱼美女直播”,然后在标题前插入关键词 :《【斗鱼美女直播】】斗鱼美女主播直播一夜睡20万元
当然:“{强行插入搜索词}{浓缩原标题}”
方法三:在当前标题中插入派生词和已经收录搜索词的相关搜索词
进行如下操作:
如:“[{百度相关搜索词1}]{简明标题}”、“[{下拉框推荐词1}{原标题}]”……相互组合……
文本
正文的处理主要是针对重复性,尽量减少与原文内容的相似度,本渣采用了以下方法:
在正文的开头和结尾插入随机文本以修改正文的内容
基于pagerank提取关键词,textrank算法提取文本摘要,实际上是对文本内容进行精简,提取主要信息,最终可能获得50%左右的原创内容。
为了防止词数过少,可以提前使用k-means和tfidf找出当前文章文章的相似度,提取段落摘要用将最长的正词加到当前的文章中,作为词数的补码。
这样文章基本可读,符合中文语法,在词缀粒度上删除原文,一定程度上减少了搜索引擎对三字判断的重复识别, 可用于用户和搜索。发动机相对友好。虽然肯定不如人工编辑,但比市面上粗糙的同义词替换和段落增删软件要好很多。比原来的中文好。
采集内容在线
刚开始整理印象笔记的时候,看到了上个SEO频道采集的内容的网上流程,看着还挺吸引人的……
================================================== =
知识星球 --> 以后会有福利,比如一段可以写*敏*感*词*句子的python代码
微信公众号---->右下角