文章目录回顾上回说道处理采集内容的两个步骤
优采云 发布时间: 2021-06-02 04:21文章目录回顾上回说道处理采集内容的两个步骤
文章 目录
评论
上次我谈到了处理 采集 内容的两个连续步骤:
第一块,原创内容的处理,上一篇主要是对html源代码信息的处理,没有说如何处理文本信息。
分享一下这个渣使用的一些方法,以及如何处理采集的内容和文字...
原创采集内容文本信息处理
这里忽略元数据的处理,因为元数据主要是添加逻辑映射。比如在某公司黄页的网站中,我抓取了“XXX公司规模、商标、年营业额、法人信息”等元数据。我需要将这些元数据与本站数据库中对应的公司关联起来。能够。由于元数据是短文本,直接取用,无需处理重复。
如果采集的内容是一大段连续的长文本,为了保证SEO效果,html源码处理后,也可以对文本进行处理。
文本信息处理,包括标题和正文两部分(不考虑人工修改,只考虑批处理)
标题
让我说SEO最重要和最核心的一点是“词”。其他 SEO 技巧和技巧基于“选择正确的词”以取得出色的结果。
最终目标是让用户可能搜索的词出现在标题中。详情页标题的词应该搜索量小,百度搜索结果少,而不是热词,大家都抢着做这个词。
首先,越流行的关键词出现在网页标题中,被收录的几率越低。这是肯定的,所以不要对58赶集这样的大网站做任何事情,对采集网站也做同样的事情。除非是高权重,否则基本没用。
其次,在垂直行业领域和充满个性化搜索内容的领域,可以挖出很多竞争不大、有一定流量的词。垂直领域的这些词不好找,因为需要对行业的了解,单靠SEO工具不容易找到。
个性化搜索内容领域,如节目开发、娱乐八卦等,总是充斥着个性化的搜索词,随着时间的推移,新的搜索行为也会不断产生。只要搜索引擎还没结束,这个领域总是充满了搜索流量,所以仔细观察发现,这里有很多热闹的长流量站。大部分内容选择都符合这个特点。与“招聘、二手车”等行业不同,用户的搜索行为基本没有变化。 ,几个站都抢了同一批词,都饱和了,热度不减,流量自然难做。
采集如何在标题中插入搜索词
如果采集的目标是网站,他们的标题不符合SEO,比如抓取一堆新闻标题,标题如何聚焦用户可能搜索的词?这人渣以前试过这些方法:
方法一:精简原标题
步骤如下:
基于python的jieba模块的实现,可以通过预先分析大量的标题提取出要删除的修饰语,并附加到字典中。 Github 有现成的轮子来提取句子的主干,比如 nltk。
1688 部分产品页面的标题好像是这样制作的。去掉了用户发布的产品名称中一些不相关的词缀,提取主干放在标题标签中。
方法二:插入搜索词
步骤如下:
比如原标题是:《斗鱼美女主播直播睡过20万》……,我想做的词是《斗鱼美女直播》,在标题前插入关键词:“[ [斗鱼美女主播]直播]斗鱼美女主播20万人直播睡了"
当然也可以:“{forced search term}{simplified original title}”
方法三:插入派生词和当前标题中已经收录搜索词的相关搜索词
步骤如下:
如:“[{百度相关搜索词1}]{简明标题}”、“[{下拉框推荐词1}{原标题}]”...相互组合...
身体
正文的处理主要是为了重复,尽量减少与原文的相似度,本渣采用了以下方法:
在正文的开头和结尾插入随机文本来修改正文的内容
基于pagerank提取关键词,textrank算法提取文本摘要。实际上,通过对文本内容进行浓缩,提取主要信息,最终可能会获得50%左右的原创内容。
为了防止词数过少,可以提前使用k-means和tfidf找出当前文章的相似度文章,提取段落摘要最长的正词并加到当前的文章中,作为词数的补充。
这样文章基本可读,符合中文语法,在词缀粒度上删除原文,所以可以将搜索引擎对三字判断的重复识别减少到一定程度程度。搜索引擎相对友好。虽然肯定不如人工编辑,但比市面上粗糙的同义词替换和段落增删软件要好很多。比原来的中文好。
采集 内容上线
刚开始整理印象笔记的时候,看到了之前SEO频道采集内容的线上流程,看着还挺有说服力的……
下一个内容