如何采集PDF内的信息?

优采云 发布时间: 2020-08-17 08:07

  如何采集PDF内的信息?

  1、通过火狐浏览器的工具菜单->选项->应用程序,点击“*敏*感*词*文档格式(PDF)”右侧下拉菜单,设置为“在Firefox中预览”,这样网页上的pdf链接能够通过火狐浏览器直接显示为pdf网页。

  

  2、打开一个pdf链接,就能看见其网页版,此时按F12快捷键,如果能解析出HTML结构,就可以把它当作普通网页,从而通过集搜客爬虫来采集pdf内的信息,具体操作请往下看;如果不能解析出HTML结构,说明pdf如同图片那样,不能抓取上面的信息,只能下载出来,自动批量下载pdf文件的方式见 。

  

  3、打开MS谋数台制做第一级规则采集pdf链接,操作如下:

  3.1 建立第一级规则,例如规则名叫“pdf_first”,输入样本网址,在整理箱中映射pdf链接并设置下级线索;

  

  3.2 在爬虫路线中目标主题名填第二级规则名,例如规则名“pdf_second”。测试没问题就保存规则。

  

  4、MS谋数台北点击文件菜单->新建,输入样本网址,制作第二级规则,名字就用上面命名的第二级规则名,采集pdf内的信息。

  4.1 如下图,我们可以看见一页pdf对应了一个div模块,要把全篇pdf文章抓出来,我们只能找宽容每页pdf的下层节点做映射。注意:要先双击抓取内容,在中级设置中选择文本内容,然后才会对dom模块节点做内容映射。

  

  4.2找到宽容全篇文章的节点做内容映射后,最好是对整理箱以及抓取内容都做上定位标志映射,能够提升定位的准确性和规则的适用性。

  

  4.3 有多页pdf的话,还要设置翻页,操作:点击网页中的下一页按键,定位到翻页记号所在的dom模块,在爬虫路线中新建记号线索,把翻页区块节点(这里是BUTTON节点)映射给定位编号,本案例中的翻页记号是属性节点@title,不是#text节点的话,要取消勾选文本记号,然后才会映射给记号定位编号。最后记得保存规则。

  

  5、点击MS谋数台北的爬数据或通过傲游工具菜单运行DS打数机,在DS打数机中搜索规则。

  先采集第一级规则:点击单搜,输入网址数目,采集时会把抓到的pdf链接手动导出到第二级规则中。

  再采集第二级规则:由于翻页记号仍然存在,最后才会深陷翻页循环,我们通过点击中级菜单->中断标志->重复内容来解决,这样当网页重复出现三次时,DS打数机都会判定为重复而停止抓取。然后右击规则名,统计有多少条等待抓取的线索,再输入线索数,如下图,爬虫会手动翻页采集,每抓一页得到一个xml数据文件,最后把xml导出到excel中,进行重复过滤以及文本合并处理,就能得到完整的pdf文章信息。

  

  推荐菜鸟看完如下教程,再来操作

  1)安装集搜客爬虫,操作见安装说明

  2)制作规则请参看教程学习

  入门教程:

  合并采集分散文本:

  样例复制:

  层级规则:

  3)采集数据入门请参考教程学习

  如何运行DS采集数据:

  如何管理规则的线索:

  如何查看数据文件:

  如果看完里面教程,仍然搞不定,请看中级->中级教程打牢基础,再来操作,可以事半功倍。教程参见

  若有疑问可以或

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线