全网文章采集(集搜客GooSeeker爬虫术语“主题”统一改为“任务” )
优采云 发布时间: 2021-09-01 16:03全网文章采集(集搜客GooSeeker爬虫术语“主题”统一改为“任务”
)
注:吉首客的GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”已改为“任务”。在爬虫浏览器中,先给任务命名然后创建规则,然后登录吉首可以查看任务的采集执行状态,管理线程URL,在“任务管理”中进行调度设置可客官网会员中心。
一、操作步骤
今天教大家如何抓取搜狐的news文章,重点讲如何抓取全文内容,如何批量抓取更多新闻,方法一般,可以套用到其他news网站Fetch ,整体操作步骤如下:
二、Case+操作步骤
第一步,打开网页
1.1,打开极手客软件,输入网址并回车,然后在网页加载完毕后点击右上角的“定义规则”按钮,可以看到出现了一个浮动窗口,这是工作站,下面定义的规则会在上面输出。
1.2,在工作台中输入主题名称,然后单击“检查重复”。如果提示被占用,则必须更改名称以确保主题名称唯一。
第 2 步:标记信息
2.1,在浏览器窗口点击你要抓取的内容,这里是新闻标题被选中,然后你会看到整个标题变成了*敏*感*词*背景,还有一个红框闪烁的框留在这个范围,根据*敏*感*词*范围检查是否选择了正确的信息,没有问题,再次点击,会弹出一个标签窗口。输入标签名称后,点击打勾保存或回车保存,在规则名称中输入第一个标记的排序框,确认后在右上角的工作台中可以看到输出的数据结构;
2.2,按照之前的操作,网页上的作者和发表时间也被标注出来了;
2.3,下一步就是标记文字了。如果您单击文本的一个段落,则只会选择该段落的范围。如果要抓取所有的文字,需要点击文字的空白处,会看到文字全部被选中,然后点击进行标注映射;
PS:如果是其他网页,不需要点击空白处全选,可以点击其他位置,直到选中你想要的内容范围;
2.4,如果不能点击选择整个范围的位置,可以点击部分目标信息,底部dom窗口会定位到这个信息对应的网页节点,然后点击每一个收录这个节点的上层节点,直到可以看到网页上选中的整个范围;
2.5,然后右击节点,选择Content Mapping -> New Capture Content -> 在快捷菜单中输入标签名称。这个操作的结果和上一步2.3一样;
第三步,保存规则,抓取数据
3.1,点击右边的测试按钮预览输出信息是否完整,如果没有问题点击右上角的保存按钮,然后点击“Crawl Data”,一个DS计数器将弹出窗口并开始捕获数据;
3.2,我之前只看到一个网络新闻。很多人会问怎么做才能得到更多的消息?这很简单。只要网页结构与示例页面相同,就可以使用此规则抓取信息。因此,我们可以整理出其他与本页面结构相同的搜狐新闻网址,并添加到规则中。操作是在计数机上进行的。右键点击规则,点击“管理线索”,然后选择“添加”,把网址复制进去保存,然后点击规则旁边的“单次搜索”,一次开始一页采集。另外,还可以使用level采集方法来实现URL的自动导入。详情请参阅“使用 URL 制作关卡采集”。
第四步,转换成Excel表格
4.1,采集 成功的数据会以xml文件的形式保存在电脑的DataScraperWorks文件夹中。点击左上角的文件菜单->存储路径,找到文件夹的位置。
4.2,那么我们就可以将采集发来的xml文件压缩成zip压缩包,进入会员中心的规则管理,选择对应的规则,然后点击导入数据,选择压缩后的zip 压缩 导入包。导入成功后,点击导出数据,下载的文件为Excel文件。