文章采集规则(集搜客GooSeeker爬虫术语“主题”统一改为“任务” )

优采云发布时间: 2022-03-21 09:09

　　文章采集规则(集搜客GooSeeker爬虫术语“主题”统一改为“任务”

)

　　注意：从Jisouke GooSeeker爬虫V9.0.2版本开始，爬虫术语“主题”已更改为“任务”。在爬虫浏览器中，先命名任务，然后创建规则。然后登录Jisoke官网会员中心的“任务管理”，可以查看采集任务的执行情况，管理线索的URL，进行调度设置。

　　一、操作步骤

　　今天教大家如何抓取搜狐新闻文章，重点是如何抓取全文内容，如何批量抓取更多新闻。方法通用，可以应用到其他新闻网站整体操作步骤如下：

　　二、案例+操作步骤

　　第一步，打开网页

　　1.1、打开Jisouke软件，输入网址回车，等待页面加载完毕，然后点击右上角的“定义规则”按钮，可以看到一个浮动窗口显示出来，这是一个工作台，下面定义的规则会在上面输出。

　　1.2，在工作台上输入主题名称，然后点击检查重复项。如果提示被占用，请更改名称以确保主题名称是唯一的。

　　第二步：标签信息

　　2.1、在浏览器窗口中用鼠标点击你要抓取的内容，这里是选中的新闻标题，然后你会看到整个标题变成了黄底红框闪烁框出这个范围，根据*敏*感*词*范围检查是否有正确的信息。如果没有问题，再次点击弹出标签窗口。输入标签名称后，点击打勾保存或按回车键保存。需要输入规则中的第一个标签。整理出框的名称，确认后可以在右上角的工作台中看到输出数据结构；

　　2.2、按照前面的操作，也在网页上标注作者和发布时间；

　　2.3、下一步是标记文本。如果单击文本的某个段落，则只会选择该段落的范围。如果要抓取所有文本，则需要单击文本的部分。在空白处，你会看到文字全部被选中，再次点击进行标注映射；

　　PS：如果是其他网页，不需要点击空白处全选，可以点击其他位置，直到选中你想要的内容范围；

　　2.4、如果不能点击整个范围可以选择的位置，可以点击目标信息的一部分，底部的dom窗口会定位到对应的网页节点到该信息，然后点击收录该信息的节点的每个上层节点，直到可以看到网页上所有范围都被选中；

　　2.5、然后右击节点，在快捷菜单中选择Content Mapping -> New Grab Content -> 输入标签名，此操作结果与上一步相同2.3 ;

　　第三步，保存规则，抓取数据

　　3.1、点击右侧测试按钮预览输出信息是否完整，如果没有问题点击右上角的保存按钮，然后点击“抓取数据”，将弹出一个 DS 计数器窗口，并开始捕获获取数据；

　　3.2、之前只抓到了一个网页新闻，很多人会问如何获取更多的新闻？很简单，只要网页结构和示例页面一样，就可以用这条规则来爬取信息。因此，我们可以将与该页面结构相同的其他搜狐新闻网站整理出来，然后添加到规则中。操作在柜台上右键规则，点击“Manage Leads”然后选择“Add”，将URL复制进去保存，然后点击规则旁边的“Single Search”，启动采集逐个。另外，还可以使用分层采集的方法来实现URL的自动导入。有关详细信息，请参阅“使用层次结构的 URL采集”。

　　第四步，转换成Excel表格

　　4.1,采集成功的数据会以xml文件的形式保存在电脑的DataScraperWorks文件夹中。点击左上角的文件菜单->存储路径找到文件夹的位置。

　　4.2、然后我们可以将采集中的xml文件压缩成一个zip压缩包，进入会员中心的规则管理，选择对应的规则，然后点击导入数据，选择压缩将一个好的 zip 存档导入其中。导入成功后，点击导出数据，即可下载下载的Excel文件。

0

2022-03-21

文章采集规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集规则(集搜客GooSeeker爬虫术语“主题”统一改为“任务” )

0 个评论

发起人

AI时代内容工厂

文章采集规则(集搜客GooSeeker爬虫术语“主题”统一改为“任务” )

0 个评论

发起人

相关问题