[SEO采集站的操作方法] SEO如何处理采集的内容(2)
优采云 发布时间: 2020-08-08 01:57处理原创采集内容的文本信息
这里忽略元数据的处理,因为元数据主要是为了添加逻辑映射. 例如,我公司的一个黄页网站获取了元数据,例如“ XXX公司的规模,商标,年营业额和法人信息”. 我只需要将这些元数据与站点库中的相应公司相关联即可. 因为元数据是短文本,所以它会立即被拾取,因此无需处理重复性.
如果采集的内容是长文本的大连续段落,则为确保SEO效果,在处理html源代码之后,也可以处理文本.
文本信息处理,包括标题和正文两部分(不考虑人工修改,仅考虑批处理)
标题
让我说,SEO的最重要和核心点是“单词”. 其他SEO技术和技术都基于“选择正确的词”以达到良好的效果.
最终目的是使用户可以搜索的单词出现在标题中. 详细信息页面标题中的单词应该具有少量搜索量,而百度搜索结果应该很少,而不是热门单词,每个人都在争先恐后地使用单词.
首先,出现在网页标题中的关键字越多,被收录的可能性就越低. 可以肯定,因此不要在58个Ganji这些大型网站上发表任何言论. 除非其重量大,否则采集站将紧随其后. 否则,它基本上是没有用的.
第二,在垂直行业和充满个性化搜索内容的领域中,可以挖出很多竞争少,流量大的单词. 在垂直领域中很难找到这些单词,因为它需要了解行业,而且不仅仅使用SEO工具也很难找到.
个性化搜索内容字段(例如程序开发,娱乐八卦等)始终充满个性化搜索词,并且随着时间的流逝,新的搜索行为将继续产生. 只要搜索引擎还没有结束,这个领域就总是充满搜索流量,因此仔细观察后发现,这里有很多热闹而漫长的流量站点. 大多数内容选择都符合此功能. 与“招聘和二手车”等行业不同,用户的搜索行为基本上没有变化. ,几个电台全都抓取同一批单词,而且它们都已饱和,因此流量自然很困难.
如何在集合标题中插入搜索词
如果目标网站的标题与SEO不一致,例如抓住一堆新闻标题,那么标题如何聚焦于用户可能搜索的单词?我以前尝试过这些方法:
方法1: 简化原创标题
步骤如下:
基于python的jieba模块的实现,可以通过预先分析大量标题来提取要删除的修饰符,并将其附加到字典中. Github有现成的轮子,可以提取句子的主干,例如nltk.
1688年产品页面的部分标题似乎是这样制作的. 删除用户发布的产品名称中的一些不相关的词缀,并提取主词干并放置在标题标签中.
方法2: 插入搜索字词
步骤如下:
例如,原创标题为: “ Betta Beauty Anchor Live睡眠超过20万的人” ...,我要输入的单词是“ Betta Beauty Live”,然后在标题前插入关键字: “ [ Betta Beauty Live] Betta美女主播直播一夜安眠20万元”
当然也可以: “ {强制搜索词} {简化的原创标题}”
方法3: 在当前标题中插入派生词和相关搜索词,其中已经收录搜索词
步骤如下:
例如: “ [[百度相关搜索字词1}] {简明标题}”,“ [{下拉框推荐字词1} {原标题}]” ...彼此组合... </p
p身体/p
p正文的处理主要是为了重复,以最大程度减少与原创内容的相似性. 炉渣采用以下方法:/p
p在正文的开头和结尾插入随机文本以修改正文的内容/p
p基于pagerank和textrank算法提取关键字以提取文本摘要. 实际上,简化了文本内容,提取了主要信息,原创内容可能约为原创内容的50%./p
p为了防止单词数量太少,可以预先使用k-means和tfidf在当前文章中查找相似的文章. 您可以提取正词最长的段落摘要,并将其添加到当前文章中,以补充全部单词的数量./p
p这样,文章基本上是可读的,符合中文语法,并且删除了原创文字并加上了词缀的粒度,因此可以在一定程度上减少搜索引擎对三个字符的重复识别,并且它将影响用户和搜索引擎. 他们都相对友好. 尽管它们肯定不如手动编辑好,但它们比市面上的粗略同义词替换,段落添加和删除软件要好得多. 比原创中文要好./p
p采集的内容在线/p
p当我第一次组织Evernote时,我看到了以前的SEO频道集合内容的在线过程,并且看起来非常引人注目.../p
p================================================ ====/p
p知识星球->将来会有好处,例如一段可以编写*敏*感*词*句子的Python代码
微信公众号---->右下角