如何采集PDF内的信息？

优采云发布时间: 2020-08-17 08:07

　　如何采集PDF内的信息？

　　1、通过火狐浏览器的工具菜单->选项->应用程序，点击“*敏*感*词*文档格式（PDF）”右侧下拉菜单，设置为“在Firefox中预览”，这样网页上的pdf链接能够通过火狐浏览器直接显示为pdf网页。

　　2、打开一个pdf链接，就能看见其网页版，此时按F12快捷键，如果能解析出HTML结构，就可以把它当作普通网页，从而通过集搜客爬虫来采集pdf内的信息，具体操作请往下看；如果不能解析出HTML结构，说明pdf如同图片那样，不能抓取上面的信息，只能下载出来，自动批量下载pdf文件的方式见。

　　3、打开MS谋数台制做第一级规则采集pdf链接，操作如下：

　　3.1 建立第一级规则，例如规则名叫“pdf_first”，输入样本网址，在整理箱中映射pdf链接并设置下级线索；

　　3.2 在爬虫路线中目标主题名填第二级规则名，例如规则名“pdf_second”。测试没问题就保存规则。

　　4、MS谋数台北点击文件菜单->新建，输入样本网址，制作第二级规则，名字就用上面命名的第二级规则名，采集pdf内的信息。

　　4.1 如下图，我们可以看见一页pdf对应了一个div模块，要把全篇pdf文章抓出来，我们只能找宽容每页pdf的下层节点做映射。注意：要先双击抓取内容，在中级设置中选择文本内容，然后才会对dom模块节点做内容映射。

　　4.2找到宽容全篇文章的节点做内容映射后，最好是对整理箱以及抓取内容都做上定位标志映射，能够提升定位的准确性和规则的适用性。

　　4.3 有多页pdf的话，还要设置翻页，操作：点击网页中的下一页按键，定位到翻页记号所在的dom模块，在爬虫路线中新建记号线索，把翻页区块节点（这里是BUTTON节点）映射给定位编号，本案例中的翻页记号是属性节点@title，不是#text节点的话，要取消勾选文本记号，然后才会映射给记号定位编号。最后记得保存规则。

　　5、点击MS谋数台北的爬数据或通过傲游工具菜单运行DS打数机，在DS打数机中搜索规则。

　　先采集第一级规则：点击单搜，输入网址数目，采集时会把抓到的pdf链接手动导出到第二级规则中。

　　再采集第二级规则：由于翻页记号仍然存在，最后才会深陷翻页循环，我们通过点击中级菜单->中断标志->重复内容来解决，这样当网页重复出现三次时，DS打数机都会判定为重复而停止抓取。然后右击规则名，统计有多少条等待抓取的线索，再输入线索数，如下图，爬虫会手动翻页采集，每抓一页得到一个xml数据文件，最后把xml导出到excel中，进行重复过滤以及文本合并处理，就能得到完整的pdf文章信息。

　　推荐菜鸟看完如下教程，再来操作

　　1）安装集搜客爬虫，操作见安装说明

　　2）制作规则请参看教程学习

　　入门教程：

　　合并采集分散文本：

　　样例复制：

　　层级规则：

　　3）采集数据入门请参考教程学习

　　如何运行DS采集数据：

　　如何管理规则的线索：

　　如何查看数据文件：

　　如果看完里面教程，仍然搞不定，请看中级->中级教程打牢基础，再来操作，可以事半功倍。教程参见

　　若有疑问可以或

0

2020-08-17

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何采集PDF内的信息？

0 个评论

发起人

AI时代内容工厂

如何采集PDF内的信息？

0 个评论

发起人

相关问题