解读:【GoGo闯】SEO如何处理采集内容(2)
优采云 发布时间: 2020-09-01 20:02[GoGo Chuang] SEO如何处理采集内容(2)
处理原创采集内容文本信息
这里忽略元数据的处理,因为元数据主要是为了添加逻辑映射. 例如,在公司黄页的网站中,我获取了元数据,例如“ XXX公司的规模,商标,年营业额和法人信息”. 我需要将这些元数据与该网站的数据库中的相应公司相关联. 能够. 由于元数据是短文本,因此将立即将其提取,并且无需处理重复性.
如果采集的内容是长文本的大连续段落,则为确保SEO效果,在处理html源代码之后,也可以处理文本.
文本信息处理,包括标题和正文两部分(不考虑人工修改,仅考虑批处理)
标题
让我说,SEO的最重要和核心是“单词”. 其他SEO技术和技术都基于“选择正确的单词”以达到良好的效果.
最终目的是使用户可以搜索的单词出现在标题中. 详细信息页面标题中的单词应该具有少量搜索量,而百度搜索结果应该很少,而不是热门单词,每个人都急于做到这一点.
首先,出现在网页标题中的关键字越多,出现收录的机会就越小. 这是肯定的,所以不要对这些大型站点进行任何操作,除非权重本身很高,否则采集电台将紧随其后,否则基本上就没有用了.
第二,在垂直行业领域和充满个性化搜索内容的领域中,可以挖出很多竞争少,流量大的单词. 在垂直领域中很难找到这些单词,因为它需要了解行业,而且仅使用SEO工具也不容易找到.
个性化搜索内容字段(例如程序开发,娱乐八卦等)始终充满个性化搜索词,并且随着时间的流逝,新的搜索行为将继续产生. 只要搜索引擎还没有结束,这个领域就总是充满搜索流量,因此仔细观察后发现,这里有很多热闹而繁忙的流量站点. 大多数内容选择都符合此功能. 与“招聘和二手车”等行业不同,用户的搜索行为基本上没有变化. ,几个电台抓了同一批单词,所有单词都变得饱和了,交通自然很困难.
采集如何在标题中插入搜索字词
如果采集的目标是网站,则它们的标题与SEO不符,例如抢走一堆新闻标题,标题如何聚焦于用户可能搜索的单词?这个败类以前尝试过以下方法:
方法1: 简化原创标题
步骤如下:
基于python的jieba模块的实现,可以通过预先分析大量标题来提取要删除的修饰语,并将其附加到字典中. Github有现成的轮子,可以提取句子的主干,例如nltk.
1688年部分产品页面的标题似乎是这样制作的. 删除用户发布的产品名称中的一些不相关的词缀,并提取主词干并放置在标题标签中.
方法2: 插入搜索字词
步骤如下:
例如,原创标题是: “ Betta Beauty Anchor Live睡了超过20万条生命,住了一晚” ...,我想做的字是“ Betta Beauty Live”,然后在标题前插入关键字: “ [Betta Beauty Live] Betta鱼锚直播直播一夜就睡了20万元”
当然也可以: “ {强行插入的搜索词} {简化的原创标题}”
方法3: 在当前标题中插入派生词和相关搜索词,其中已经收录搜索词
步骤如下:
<p>例如: “ [[百度相关搜索字词1}] {简明标题}”,“ [{下拉框推荐字词1} {原标题}]” ...彼此组合...