SEO内容获取解决方案
优采云 发布时间: 2020-08-06 18:09一个. 采集
处理原理
当前,通常有两种采集方式:
1. 定向采集: 按原点排序,设置采集条件,选择站点中可用的任何内容,然后进行过滤!
2. 泛集合: 常规爬虫集合
我们在这里使用的是: 根据关键字,指定N个网站进行有针对性的采集
原理: 借用搜索引擎命令站点: 域关键字
*敏*感*词*
第二,内容处理
1. 标题
方法1: 简化原创标题
步骤如下:
对原创标题进行分区
删除停用词
添加词性
删除修饰词,例如形容词,副词,介词...,保留原创标题的主语-谓语-宾语,并获得句子的主语
通常,基于解词分词或nltk实现,可以通过预先分析大量标题来提取要删除的修饰语,并将其附加到词典中.
例如,以这种方式处理阿里巴巴某些产品页面的标题. 删除用户发布的产品名称中的一些不相关的词缀,并提取主词干并放置在标题标签中.
方法2: 插入搜索字词
步骤如下:
构建xunsearch或其他开源搜索,并为采集的标题建立索引
使用预先准备的搜索词(待完成的单词)在搜索界面中依次搜索
在搜索结果中出现的标题之前插入当前搜索词
我要说的是“正确使用电动汽车电池”
例如,匹配原创标题
“不要让过度放电破坏您的电动汽车电池”
“黄山的一个男人通过拆线缝偷了电瓶车”
………………..
在标题前插入关键字:
“ [正确使用电动汽车电池]不要让过度放电破坏您的电动汽车电池”
或者“ [正确使用电动汽车电池]黄山上的一个男人通过拆下电线并连接电线偷走了电池车”
当然也可以: “ {插入搜索词} {简化的原创标题}”
方法3: 在当前标题中插入派生词和相关搜索词,其中已经收录搜索词
步骤如下:
获取百度相关搜索或标题已收录搜索词的下拉框,
在标题中插入相关的搜索或下拉单词
例如: “ [[{百度相关搜索词1}] {原创标题}”,“ [{下拉框推荐单词1} {原创标题}]”
也: [{百度相关搜索词1}] {简体原创标题}“,” [{下拉框推荐单词1} {简体原创标题}]“
2. 身体含量
正文的处理主要是为了重复,以尽量减少与原创内容的相似性
在正文的开头和结尾插入随机文本
方法1: 事先准备一些通用文本模板,随机调用它们并替换关键字
方法2: 在正文中随机剪切一段文本
方法3: 随机调出N篇相关文章的标题和摘要,并将其放在开头和结尾
编辑正文内容
基于textrank算法提取文本摘要,并将其放在主要文本的前面.
为了防止单词数量过少,可以预先使用k-means和tf-idf在当前文章中查找相似的文章,并提取正单词最长的段落摘要和将它们添加到当前文章中,作为单词“完成”的数量.
汇总页面
聚合页面是从单词根部挖出的10个扩展单词. 每个扩展的单词都会生成一个列表页面或其他形式的聚合页面. 该页面的内容是与该单词相对应的20条内容.
这是最简单的模型
通常的模型
以扩展名“正确使用电动汽车电池”为例
聚合页面要采集的内容是:
如何保护充电器?
如何延长电池寿命?
电动汽车电池充电的环境要求?
这种模型通常是机器+工人首先预先设置模型,然后采集内容,然后处理组合.
案例:
扩展词: 九江是一个适合购物的地方
标题: 关键字组合,
内容: 汇总页面,内容组合