全网文章采集(集搜客GooSeeker爬虫术语“主题”统一改为“任务” )

优采云发布时间: 2021-09-01 16:03

　　全网文章采集(集搜客GooSeeker爬虫术语“主题”统一改为“任务”

)

　　注：吉首客的GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”已改为“任务”。在爬虫浏览器中，先给任务命名然后创建规则，然后登录吉首可以查看任务的采集执行状态，管理线程URL，在“任务管理”中进行调度设置可客官网会员中心。

　　一、操作步骤

　　今天教大家如何抓取搜狐的news文章，重点讲如何抓取全文内容，如何批量抓取更多新闻，方法一般，可以套用到其他news网站Fetch ，整体操作步骤如下：

　　二、Case+操作步骤

　　第一步，打开网页

　　1.1，打开极手客软件，输入网址并回车，然后在网页加载完毕后点击右上角的“定义规则”按钮，可以看到出现了一个浮动窗口，这是工作站，下面定义的规则会在上面输出。

　　1.2，在工作台中输入主题名称，然后单击“检查重复”。如果提示被占用，则必须更改名称以确保主题名称唯一。

　　第 2 步：标记信息

　　2.1，在浏览器窗口点击你要抓取的内容，这里是新闻标题被选中，然后你会看到整个标题变成了*敏*感*词*背景，还有一个红框闪烁的框留在这个范围，根据*敏*感*词*范围检查是否选择了正确的信息，没有问题，再次点击，会弹出一个标签窗口。输入标签名称后，点击打勾保存或回车保存，在规则名称中输入第一个标记的排序框，确认后在右上角的工作台中可以看到输出的数据结构；

　　2.2，按照之前的操作，网页上的作者和发表时间也被标注出来了；

　　2.3，下一步就是标记文字了。如果您单击文本的一个段落，则只会选择该段落的范围。如果要抓取所有的文字，需要点击文字的空白处，会看到文字全部被选中，然后点击进行标注映射；

　　PS：如果是其他网页，不需要点击空白处全选，可以点击其他位置，直到选中你想要的内容范围；

　　2.4，如果不能点击选择整个范围的位置，可以点击部分目标信息，底部dom窗口会定位到这个信息对应的网页节点，然后点击每一个收录这个节点的上层节点，直到可以看到网页上选中的整个范围；

　　2.5，然后右击节点，选择Content Mapping -> New Capture Content -> 在快捷菜单中输入标签名称。这个操作的结果和上一步2.3一样；

　　第三步，保存规则，抓取数据

　　3.1，点击右边的测试按钮预览输出信息是否完整，如果没有问题点击右上角的保存按钮，然后点击“Crawl Data”，一个DS计数器将弹出窗口并开始捕获数据；

　　3.2，我之前只看到一个网络新闻。很多人会问怎么做才能得到更多的消息？这很简单。只要网页结构与示例页面相同，就可以使用此规则抓取信息。因此，我们可以整理出其他与本页面结构相同的搜狐新闻网址，并添加到规则中。操作是在计数机上进行的。右键点击规则，点击“管理线索”，然后选择“添加”，把网址复制进去保存，然后点击规则旁边的“单次搜索”，一次开始一页采集。另外，还可以使用level采集方法来实现URL的自动导入。详情请参阅“使用 URL 制作关卡采集”。