文章目录回顾上回说道处理采集内容的两个步骤

优采云发布时间: 2021-06-02 04:21

　　文章目录

　　上次我谈到了处理采集内容的两个连续步骤：

　　第一块，原创内容的处理，上一篇主要是对html源代码信息的处理，没有说如何处理文本信息。

　　分享一下这个渣使用的一些方法，以及如何处理采集的内容和文字...

　　原创采集内容文本信息处理

　　这里忽略元数据的处理，因为元数据主要是添加逻辑映射。比如在某公司黄页的网站中，我抓取了“XXX公司规模、商标、年营业额、法人信息”等元数据。我需要将这些元数据与本站数据库中对应的公司关联起来。能够。由于元数据是短文本，直接取用，无需处理重复。

　　如果采集的内容是一大段连续的长文本，为了保证SEO效果，html源码处理后，也可以对文本进行处理。

　　文本信息处理，包括标题和正文两部分（不考虑人工修改，只考虑批处理）

　　标题

　　让我说SEO最重要和最核心的一点是“词”。其他 SEO 技巧和技巧基于“选择正确的词”以取得出色的结果。

　　最终目标是让用户可能搜索的词出现在标题中。详情页标题的词应该搜索量小，百度搜索结果少，而不是热词，大家都抢着做这个词。

　　首先，越流行的关键词出现在网页标题中，被收录的几率越低。这是肯定的，所以不要对58赶集这样的大网站做任何事情，对采集网站也做同样的事情。除非是高权重，否则基本没用。

　　其次，在垂直行业领域和充满个性化搜索内容的领域，可以挖出很多竞争不大、有一定流量的词。垂直领域的这些词不好找，因为需要对行业的了解，单靠SEO工具不容易找到。

　　个性化搜索内容领域，如节目开发、娱乐八卦等，总是充斥着个性化的搜索词，随着时间的推移，新的搜索行为也会不断产生。只要搜索引擎还没结束，这个领域总是充满了搜索流量，所以仔细观察发现，这里有很多热闹的长流量站。大部分内容选择都符合这个特点。与“招聘、二手车”等行业不同，用户的搜索行为基本没有变化。，几个站都抢了同一批词，都饱和了，热度不减，流量自然难做。

　　采集如何在标题中插入搜索词

　　如果采集的目标是网站，他们的标题不符合SEO，比如抓取一堆新闻标题，标题如何聚焦用户可能搜索的词？这人渣以前试过这些方法：

　　方法一：精简原标题

　　步骤如下：

　　基于python的jieba模块的实现，可以通过预先分析大量的标题提取出要删除的修饰语，并附加到字典中。 Github 有现成的轮子来提取句子的主干，比如 nltk。

　　1688 部分产品页面的标题好像是这样制作的。去掉了用户发布的产品名称中一些不相关的词缀，提取主干放在标题标签中。

　　方法二：插入搜索词

　　步骤如下：

　　比如原标题是：《斗鱼美女主播直播睡过20万》……，我想做的词是《斗鱼美女直播》，在标题前插入关键词：“[ [斗鱼美女主播]直播]斗鱼美女主播20万人直播睡了"

　　当然也可以：“{forced search term}{simplified original title}”

　　方法三：插入派生词和当前标题中已经收录搜索词的相关搜索词

　　步骤如下：

　　如：“[{百度相关搜索词1}]{简明标题}”、“[{下拉框推荐词1}{原标题}]”...相互组合...

　　身体

　　正文的处理主要是为了重复，尽量减少与原文的相似度，本渣采用了以下方法：

　　在正文的开头和结尾插入随机文本来修改正文的内容

　　基于pagerank提取关键词，textrank算法提取文本摘要。实际上，通过对文本内容进行浓缩，提取主要信息，最终可能会获得50%左右的原创内容。

　　为了防止词数过少，可以提前使用k-means和tfidf找出当前文章的相似度文章，提取段落摘要最长的正词并加到当前的文章中，作为词数的补充。

　　这样文章基本可读，符合中文语法，在词缀粒度上删除原文，所以可以将搜索引擎对三字判断的重复识别减少到一定程度程度。搜索引擎相对友好。虽然肯定不如人工编辑，但比市面上粗糙的同义词替换和段落增删软件要好很多。比原来的中文好。

　　采集内容上线

　　刚开始整理印象笔记的时候，看到了之前SEO频道采集内容的线上流程，看着还挺有说服力的……

　　下一个内容

　　采集站SEO教程：怎么处理内容（3）

0

2021-06-02

采集的文章和关键词不符

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章目录回顾上回说道处理采集内容的两个步骤

0 个评论

发起人

AI时代内容工厂

文章目录回顾上回说道处理采集内容的两个步骤

0 个评论

发起人

相关问题