汇总:XPath2Doc,一个*敏*感*词*采集网页生成Word Docx文件的工具
优采云 发布时间: 2022-10-11 07:20汇总:XPath2Doc,一个*敏*感*词*采集网页生成Word Docx文件的工具
很多人需要从网站采集的一些数据中填写Word模板,费时费力,容易出错,所以写了这个工具给朋友。本程序仅支持 Docx 格式的模板文件。
本程序不是爬虫,不是自动采集工具,不能自动登录网站。需要在WebBrowser窗口手动登录,找到需要的数据页面,然后点击程序按钮到采集,所以它是一个*敏*感*词*的网页数据填充Docx工具。
工作原则:
网页的每一个元素都可以表示为一条XPath语句,所以我们可以阅读浏览器打开的网站页面的源码,通过XPath语句获取网页元素中的文本。
教程:
如何获取 XPath 语句:
通常我们可以用谷歌的Chrome浏览器打开网站页面,按F12调出开发者工具界面,在ELements选项卡下,随着鼠标的移动,可以看到网页内容被阴影,点击三角形符号,可以进一步定位到准确位置,直到找到最终想要的数据位置。在找到的文本上右击,在弹出的菜单中选择Copy-Copy XPath,粘贴到记事本中,得到需要的XPath语句。
这里需要说明一下:如果复制的XPath语句中有/tbody,会影响采集,这个问题在程序内部已经处理过了,但是在某些特殊情况下可能还是会影响数据采集 ,可以手动删除。
软件运行环境:
对于Windows7 Sp1操作系统,请安装以下组件(重要:如果没有安装VC库,程序将无法启动):
1. .Net 框架 4.5.2。
2. 32位VC2017(或更高版本)运行库。
下载vc_redist.x86.exe
以上组件一般都收录在Windows 10系统中,不需要单独安装。Windows 10 1903 运行通过。
不支持 Windows XP 操作系统。
软件操作说明:
1、本程序需要三个配置文件:General.ini、自定义.ini、自定义模板.docx。最后两个文件名是自己定义的。
General.ini文件定义了INI文件和Docx模板文件的存放目录,可以留空。默认是程序所在的目录。
自定义 .ini 和自定义模板 .docx 是软件用户创建的网页 采集XPath 语句和最终生成文件中使用的 Docx 模板。具体设置方法请参考ini文件中的说明。请注意,Docx 模板文件中的“@@”等字符是 INI 文件中定义的标记字符串,用于替换 采集 网页的内容。替换关键字的前缀和后缀以及模板文件名在ini文件中定义。
2、在使用本程序前,请先建立自己的INI配置文件和Docx模板文件。(详见附件七叉叉、天眼叉两个配置文件及起诉书模板)
需要注意的是,模板文件支持对文档的不同部分使用不同的URL来采集,注意Url设置。
三、使用方法:
启动程序——选择模板——点击采集数据按钮旁边的黑色三角,点击下拉菜单,点击需要采集的部分。等待浏览器加载网页,手动输入要查询的内容,点击查询,找到数据的具体页面,然后点击采集数据按钮,观察是否已经获取到需要的数据右侧的列表。继续打开下拉菜单,选择下一个需要采集的部分,如果URL已经改变,等待浏览器加载并找到需要的数据页面。点击采集Data按钮,查看右侧列表中是否获取到第二部分数据。重复此操作,直到所有数据 采集 完成。
如果两部分的URL相同,在点击下一部分的下拉菜单之前,需要在浏览器中重新查询新数据。新的数据页出来后,点击下拉菜单选择采集的下一部分。(如果URL相同,点击下一部分会直接从网页中取数据,如果浏览器不换页,数据就会出错。)如果有一部分需要重新-采集,请点击名称的部分,然后点击采集按钮重复采集部分(可以随意更改浏览器的数据页,会得到不同的数据公司)。
如果列表中采集得到的数据结果有偏差,可以点击修改。如果XPath语句有错误,也可以自己修改看看测试结果(XPath语句修改后会立即重新获取浏览器的数据,所以浏览器最好是有效的数据页)。程序中修改的XPath语句不会保存在INI文件中,请手动保存。
如果列表中的数据正确,并且预览窗口中的Docx模板内容正确,可以点击创建文档按钮,填写要生成的文件名。软件会将模板中的索引字符串替换为抓取的网页数据,并自动生成Docx文档。
需要注意的是,右下角的Docx预览窗口不能完全支持Word文档,非标准文档可能会出现文字缺失或错位的情况。在这种情况下,您可以忽略它,或将模板文件更改为标准文本格式(单行距)。
压缩包中自带七叉叉简单模板、天眼查配置文件和起诉书供用户参考。
这个程序的使用有一个门槛:通过手动操作Chrome获取网页数据的XPath语句。
建议电脑新手找懂一点鼠标操作的人帮忙获取并填写INI配置文件
也可以在本帖留言,或在百度上联系作者获取程序使用帮助。
软件操作演示可以看到压缩包中的Demo.gif*敏*感*词*文件
最新版:IMGspider Pro-更高效率图片采集WP插件
IMGspider Pro图片蜘蛛插件是在原IMGspider图片采集插件的基础上,全新的功能扩展专业版插件。IMGspider Pro在免费版的基础上增加了超强大的Chrome图片采集助手浏览器扩展,实现更高效的图片采集效率更多网站图片采集支持(如微信、今日头条等)。
插件概述 1. 基本设置。
通用设置
代理设置
插件支持站长还增加了代理服务器配置,以满足中国海外网站无法访问的图片采集,或者加速为图片采集。
图片选项
IMGspider图片蜘蛛插件支持自定义一些采集图片参数选项,包括:
过滤规则
该插件提供了多种过滤规则来过滤一些特定的外部链接图片,包括:
2. 全局扫描。
该功能的主要目的是方便部分站长全局检测已发布的文章外链图片,实现一键采集已发布的文章、页面和媒体外链图片。
3. 图片采集助手
闪电博客是为IMGSpider图片蜘蛛WordPress插件开发的浏览器扩展,实现更高效的WordPress图片采集,并支持微信公众号、头条号等社交图片采集。
免费版imgSpider更多地依赖站长网站服务器对采集图片,而专业版imgSpider利用插件和浏览器扩展的集成巧妙地利用本地网络进行图片抓取,无论是在采集的效率和网站支持上都有了质的飞跃。
版本比较