本文信息本文由方法SEO顾问发表于2016-10-1101
优采云 发布时间: 2021-08-26 00:03本文信息本文由方法SEO顾问发表于2016-10-1101
本文信息本文由Method SEO顾问发表于2016-10-1101:34:27,共2033字,请注明:【GoGo闯】SEO如何处理采集内容(2)_【方法SEO顾问】,如果我的网站文章对你有帮助,就来百度口碑给个好评吧!
上次时间太晚了,采集的内容处理很肤浅。在实际操作过程中,还有很多奇特巧妙的技巧,需要创意与技术的结合。这篇文章充满力量。
评论
上次我谈到处理采集内容的两个连续步骤:
第一块,原创内容的处理,上一篇主要是对html源代码信息的处理,没有说如何处理文本信息。
来分享一下这个人渣使用的一些方法,以及如何处理采集内容文本...
原创采集内容文本信息的处理
这里忽略元数据的处理,因为元数据主要是添加逻辑映射。比如我公司的一个黄页网站抓取了“XXX公司规模、商标、年营业额、法人信息”等元数据。我需要将这些元数据与本站数据库中对应的公司关联起来。能。由于元数据是短文本,直接取用,无需处理重复。
如果采集内容是一大段连续的长文本,为了保证SEO效果,html源码处理后,也可以对文本进行处理。
文本信息处理,包括标题和正文两部分(不考虑人工修改,只考虑批处理)
标题
让我说SEO最重要和最核心的一点是“词”。其他 SEO 技巧和技巧基于“选择正确的词”以取得出色的结果。
最终目标是让用户可能搜索的词出现在标题中。详情页标题的词应该搜索量小,百度搜索结果少,而不是热词,大家都抢着做这个词。
首先,网页标题中出现的关键词越流行,被收录的几率越低。这是肯定的,所以不要对58赶集这样的大网站做任何事情。 采集站应该效仿。除非是高权重,否则基本没用。
其次,在垂直行业领域和充满个性化搜索内容的领域,可以挖出很多竞争不大、有一定流量的词。垂直领域的这些词不好找,因为需要对行业的了解,单靠SEO工具不容易找到。
个性化搜索内容领域,如节目开发、娱乐八卦等,总是充斥着个性化的搜索词,随着时间的推移,新的搜索行为也会不断产生。只要搜索引擎还没结束,这个领域总是充满了搜索流量,所以仔细观察发现,这里有很多热闹的长流量站。大部分内容选择都符合这个特点。与“招聘、二手车”等行业不同,用户的搜索行为基本没有变化。 ,几个站都抢了同一批词,都饱和了,热度不减,流量自然难做。
采集如何在标题中插入搜索词
如果采集的目标是网站,他们的标题本身不符合SEO,比如抢了一堆新闻标题,标题怎么能尽可能的集中在用户可能搜索的词上这人渣以前试过这些方法:
方法一:精简原标题
步骤如下:
基于python的jieba模块的实现,可以通过预先分析大量的标题提取出要删除的修饰语,并附加到字典中。 Github 有现成的轮子来提取句子的主干,比如 nltk。
1688 部分产品页面的标题好像是这样制作的。去掉了用户发布的产品名称中一些不相关的词缀,提取主干放在标题标签中。
方法二:插入搜索词
步骤如下:
比如原标题是:《斗鱼主播直播睡过20万》……,我想做的词是“斗鱼直播”,然后插入关键词:“[斗鱼[美女]直播]斗鱼美女主播20万人直播睡了"
当然也可以:“{forced search term}{simplified original title}”
方法三:插入派生词和当前标题中已经收录搜索词的相关搜索词
步骤如下:
如:“[{百度相关搜索词1}]{简明标题}”、“[{下拉框推荐词1}{原标题}]”...相互组合...
身体
正文的处理主要是为了重复,尽量减少与原文的相似度,本渣采用了以下方法:
在正文的开头和结尾插入随机文本
编辑正文内容
基于pagerank提取关键词,textrank算法提取文本摘要,实际上是为了简化正文内容,提取主要信息,最终可能会获得50%左右的原创内容。
为了防止词数过少,可以提前使用k-means和tfidf求文章文章的相似度,提取正面词最长的段落总结并将其添加到当前的文章 中作为词数的补充。
这样文章基本可读,符合中文语法,原文以词缀粒度删除,一定程度上可以减少搜索引擎对三字判断的重复识别搜索引擎相对友好。虽然肯定不如人工编辑,但比市面上粗糙的同义词替换和段落增删软件要好很多。比原来的中文好。
采集content 在线
刚开始整理印象笔记的时候,看到了之前SEO频道采集内容的线上流程,看着还挺有说服力的……
最后伪装
不过还是有很多奇怪的技巧,具体的细节没有提到。