SEO流量贩子:如何处理采集内容(二)
优采云 发布时间: 2020-08-17 14:02SEO流量贩子:如何处理采集内容(二)
对原创采集内容文本信息的处理
对元数据的处理,这边忽视,因为元数据主要是添加逻辑上的映射。比如我一个企业黄页的网站,去抓了“XXX公司的规模、商标、年营业额、法人信息”等元数据,我需将这种元数据与本站库内对应的企业做个关联即可。因为元数据属于短文本,即采即上,无需做重复性方面的处理。
如果采集内容是连续大段的长文本,为了保证SEO疗效,对html源码处理后,也可以进行文本的处理。
文本信息处理,包括标题和正文两部份(不考虑人工更改,只考虑批量处理)
标题
要我说SEO最重要的点、最最核心的点,就是“词”,其他的SEO手法、技巧都是在“选对词”的基础上才有大疗效。
最终目的是使标题中出现用户可能会搜索的词,详情页标题中的词最好是有一点点搜索量的、百度搜索结果少的,而不是热词、谁都抢着做的词。
首先一个网页标题出现的关键词越热门,被收录的机率越低,这是可以肯定的,所以不要58赶集那些大站点做啥词,一个采集站也跟随做,除非本身权重高,否则基本没戏的。
其次,在垂直行业领域和饱含个性化搜索内容的领域,竞争小且有些流量的词可以挖出好多的。垂直领域的那些词不容易找,因为须要对行业的理解,仅靠SEO工具不容易发觉。
个性化搜索内容领域,如编程开发、娱乐八卦等,这类领域永远饱含个性化的搜索词,随着时间的推移会源源不断的形成新的搜索行为,只要搜索引擎不完蛋,这个领域就永远饱含搜索流量,所以仔细观察,好些活的很长的流量站,内容选型大多符合这个特点,不象“招聘、二手车”之类的行业,用户的搜索行为基本是不变的,几个站都抢同一批词,都饱和白热化了,流量自然不好做。
采集标题怎么插入搜索词
如果采集的目标网站,他们的标题本身就不符合SEO,比如抓了一堆新闻标题,如何使标题尽可能的集中用户可能会搜的词?本渣渣之前尝试过这种方式:
方法一:精简原创标题
步骤如下:
对原创标题动词
去除停止词
获取词根动词
去除修饰词,如形容词、副词、介词…,保留原标题主谓宾,获取语句主干
基于python的jieba模块实现,要删掉的修饰词可以预先剖析大量的标题来提取,追加到字典中。github有现成的提取语句主干的轮子,好像用的nltk。
貌似1688部份产品页的title就是如此搞的,把用户发布的产品名中一些无关大雅的词根杀死,提取主干放在title标签中。
方法二:插入搜索词
步骤如下:
搭建xunsearch或其他的开源搜索,对采集标题创建索引
用提早准保好的搜索词(就是要做的这些词)依次到搜索插口中搜索
对搜索结果中出现的标题前方插入当前搜索词
比如原标题是:“斗鱼美女主播直播午睡一夜狂澜20万”…..,我要做的词有“斗鱼美眉直播”,则标题前插入关键词:“[斗鱼美眉直播]斗鱼美女主播直播午睡一夜狂澜20万”
当然也可以:“{强行插入的搜索词}{精简后的原创标题}”
方法三:插入当前标题已收录搜索词的衍生词、相关搜索词
步骤如下:
抓取标题已收录搜索词的百度相关搜索或下拉框,或者通过Word2vec算法分析其他抓取内容正文,获取该搜索词的同义词..
标题中插入相关搜索或下拉框的词
如:”[{百度相关搜索词1}]{精简标题}”、“[{下拉框推荐词1}{原创标题}]”……相互组合啦……
正文
正文的处理主要是针对重复性,尽量减少与原创内容的相似性,本渣渣用过以下方式:
正文开头、结尾处插入随机文本
比如插入当前标题收录搜索词的相关搜索词:“本文收录其他主题:{相关搜索词1} {相关搜索词2} {相关搜索词3}…”
比如插入当前页面的历史referer词,“用户以前通过 {referer词1} {referer词2} {referer词3}…搜索到本页”
比如提早打算一些才能通用的文本模板,随机调用
修改正文内容
基于pagerank提取关键词,textrank算法提取文本摘要,其实就是把正文内容精简,提取主干信息,可能最终获得原创内容50%左右的字数。
为了避免字数过少,可以提早用k-means和tfidf,找出当前文章的相像文章,可以提取它们正文字数最长的段落的摘要,加到当前的文章中用作字数上的补全。
这样基本上文章是读的通的,符合英文句型,且原创正文是以词根为细度的删节,所以一定程度才能降低搜索引擎三字一判的重复性辨识,对用户和搜索引擎都相对友好,虽然肯定比不上人工编辑的质量,但比市面上粗鲁的同义词替换、段落增删的软件比上去好好多。比英文原封不动不改好一些。
采集内容上线
刚整理印象笔记时,看到之前的SEO频道采集内容的上线流程,看着挺装酷的…
最后装酷
然而,依旧有很多奇淫巧技和具体细节没有说
微信公众号:流量贩子
功能介绍:探讨SEO、黑帽、黑色产业、互联网流量引入、流量转化与变现的观点、想法及方法。坚信联通互联网时代,掌握流量的玩法,不用依托公司及城市背景实现财务自由,打工不再是养家糊口的唯一手段。
相关文章
SEO流量贩子:如何处理采集内容(一)
SEO流量贩子:如何处理采集内容(二)
SEO流量贩子:如何处理采集内容(三)
SEO流量贩子:如何处理采集内容(四)
SEO流量贩子:如何处理采集内容(五)