SEO内容获取解决方案

优采云 发布时间: 2020-08-06 18:09

  一个. 采集

  处理原理

  当前,通常有两种采集方式:

  1. 定向采集: 按原点排序,设置采集条件,选择站点中可用的任何内容,然后进行过滤!

  2. 泛集合: 常规爬虫集合

  我们在这里使用的是: 根据关键字,指定N个网站进行有针对性的采集

  原理: 借用搜索引擎命令站点: 域关键字

  *敏*感*词*

  第二,内容处理

  1. 标题

  方法1: 简化原创标题

  步骤如下:

  对原创标题进行分区

  删除停用词

  添加词性

  删除修饰词,例如形容词,副词,介词...,保留原创标题的主语-谓语-宾语,并获得句子的主语

  通常,基于解词分词或nltk实现,可以通过预先分析大量标题来提取要删除的修饰语,并将其附加到词典中.

  例如,以这种方式处理阿里巴巴某些产品页面的标​​题. 删除用户发布的产品名称中的一些不相关的词缀,并提取主词干并放置在标题标签中.

  方法2: 插入搜索字词

  步骤如下:

  构建xunsearch或其他开源搜索,并为采集的标题建立索引

  使用预先准备的搜索词(待完成的单词)在搜索界面中依次搜索

  在搜索结果中出现的标题之前插入当前搜索词

  我要说的是“正确使用电动汽车电池”

  例如,匹配原创标题

  “不要让过度放电破坏您的电动汽车电池”

  “黄山的一个男人通过拆线缝偷了电瓶车”

  ………………..

  在标题前插入关键字:

  “ [正确使用电动汽车电池]不要让过度放电破坏您的电动汽车电池”

  或者“ [正确使用电动汽车电池]黄山上的一个男人通过拆下电线并连接电线偷走了电池车”

  当然也可以: “ {插入搜索词} {简化的原创标题}”

  方法3: 在当前标题中插入派生词和相关搜索词,其中已经收录搜索词

  步骤如下:

  获取百度相关搜索或标题已收录搜索词的下拉框,

  在标题中插入相关的搜索或下拉单词

  例如: “ [[{百度相关搜索词1}] {原创标题}”,“ [{下拉框推荐单词1} {原创标题}]”

  也: [{百度相关搜索词1}] {简体原创标题}“,” [{下拉框推荐单词1} {简体原创标题}]“

  2. 身体含量

  正文的处理主要是为了重复,以尽量减少与原创内容的相似性

  在正文的开头和结尾插入随机文本

  方法1: 事先准备一些通用文本模板,随机调用它们并替换关键字

  方法2: 在正文中随机剪切一段文本

  方法3: 随机调出N篇相关文章的标题和摘要,并将其放在开头和结尾

  编辑正文内容

  基于textrank算法提取文本摘要,并将其放在主要文本的前面.

  为了防止单词数量过少,可以预先使用k-means和tf-idf在当前文章中查找相似的文章,并提取正单词最长的段落摘要和将它们添加到当前文章中,作为单词“完成”的数量.

  汇总页面

  聚合页面是从单词根部挖出的10个扩展单词. 每个扩展的单词都会生成一个列表页面或其他形式的聚合页面. 该页面的内容是与该单词相对应的20条内容.

  这是最简单的模型

  通常的模型

  以扩展名“正确使用电动汽车电池”为例

  聚合页面要采集的内容是:

  如何保护充电器?

  如何延长电池寿命?

  电动汽车电池充电的环境要求?

  这种模型通常是机器+工人首先预先设置模型,然后采集内容,然后处理组合.

  案例:

  扩展词: 九江是一个适合购物的地方

  标题: 关键字组合,

  内容: 汇总页面,内容组合

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线