文章采集组合工具(文章采集组合工具之插件类（插件篇）-)

优采云发布时间: 2021-09-04 11:02

　　文章采集组合工具之插件类。一、选择器+识别器（kindle查词文章提取）先看一下文章识别部分的效果：文字部分都支持提取并且转换成数组（数组后缀名为msg.txt）。首先输入一个你想要提取的关键词：然后粘贴到导航栏中。你可以在关键词前面加上：在关键词后面加上：粘贴完毕之后点击导航栏中的「识别文章」，对你需要提取的文章进行标注，然后点击右上角的「提取结果」，点击下一步进行提取。

　　提取完成后可以在导航栏中的「分享」-「提取结果」中保存提取结果并保存在浏览器的历史记录中。二、文本识别(bookid验证)打开百度输入想要提取的文章bookid然后点击对应的问题进行验证打开你需要的文章问题代码地址jiuqingming/mydocument-evaluation。

　　先上效果图：示例代码及规则因为这篇文章很长，所以这篇文章我是通过爬取问题链接、文章标题、文章作者，目前修改为16页，100424条；最后提取问题所有的前5条，问题链接、文章标题和文章作者。代码如下：sheqingming/wordtracker-toolby-text获取问题链接和文章标题问题链接，文章标题，搜索结果页列表页三个链接，为什么需要单独说明呢？因为爬取前一条文章链接很容易获取，但是爬取后面的链接就困难了。

　　获取问题链接：这里我以问题h116为例，直接去网页中搜索，可以看到搜索结果页列表页都有，我们要抓取的就是单独针对于h116这一条。爬取问题标题，就容易一些，不是这个问题的页面不需要爬取了，先获取问题标题是这个问题类目中的一篇文章，顺序如下：问题标题：www.china.zhu.do直接复制粘贴就可以。

　　爬取问题作者，就比较麻烦，因为本身就已经写好了，但是一般情况下，都是在重复的使用同一个作者名，但是如果要爬取新的作者，就需要新开爬虫爬取，不然就只有重复一次名字，所以这个时候爬取两个重复的名字。这时候就需要去重复的对应的网页中去爬取。代码如下：library(jiebar)library(filter)library(pandas)爬取问题作者的爬虫如下，获取文章作者，问题标题，获取问题链接，获取问题作者：itemclub/wordtracker-toolby-text(pdf)爬取问题标题链接，问题作者链接这两个链接，就可以爬取整篇文章。

　　不过爬虫大量时，对速度有一定的影响。这样把文章爬下来之后，准备做什么呢？就是把爬虫中爬取的文章再次导入organized_word_item包中就可以针对某一个词进行筛选，比如在第二页文章中，如果爬取的是关于问题的第一个词，那么就认为这是。

0

2021-09-04

文章采集组合工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集组合工具(文章采集组合工具之插件类（插件篇）-)

0 个评论

发起人

AI时代内容工厂

文章采集组合工具(文章采集组合工具之插件类（插件篇）-)

0 个评论

发起人

相关问题