汇总:XPath2Doc，一个敏感词采集网页生成Word Docx文件的工具

优采云发布时间: 2022-10-11 07:20

　　汇总:XPath2Doc，一个*敏*感*词*采集网页生成Word Docx文件的工具

　　很多人需要从网站采集的一些数据中填写Word模板，费时费力，容易出错，所以写了这个工具给朋友。本程序仅支持 Docx 格式的模板文件。

　　本程序不是爬虫，不是自动采集工具，不能自动登录网站。需要在WebBrowser窗口手动登录，找到需要的数据页面，然后点击程序按钮到采集，所以它是一个*敏*感*词*的网页数据填充Docx工具。

　　工作原则：

　　网页的每一个元素都可以表示为一条XPath语句，所以我们可以阅读浏览器打开的网站页面的源码，通过XPath语句获取网页元素中的文本。

　　教程：

　　如何获取 XPath 语句：

　　通常我们可以用谷歌的Chrome浏览器打开网站页面，按F12调出开发者工具界面，在ELements选项卡下，随着鼠标的移动，可以看到网页内容被阴影，点击三角形符号，可以进一步定位到准确位置，直到找到最终想要的数据位置。在找到的文本上右击，在弹出的菜单中选择Copy-Copy XPath，粘贴到记事本中，得到需要的XPath语句。

　　这里需要说明一下：如果复制的XPath语句中有/tbody，会影响采集，这个问题在程序内部已经处理过了，但是在某些特殊情况下可能还是会影响数据采集，可以手动删除。

　　软件运行环境：

　　对于Windows7 Sp1操作系统，请安装以下组件（重要：如果没有安装VC库，程序将无法启动）：

　　1. .Net 框架 4.5.2。

　　2. 32位VC2017（或更高版本）运行库。

　　下载vc_redist.x86.exe

　　以上组件一般都收录在Windows 10系统中，不需要单独安装。Windows 10 1903 运行通过。

　　不支持 Windows XP 操作系统。

　　软件操作说明：

　　1、本程序需要三个配置文件：General.ini、自定义.ini、自定义模板.docx。最后两个文件名是自己定义的。

　　General.ini文件定义了INI文件和Docx模板文件的存放目录，可以留空。默认是程序所在的目录。

　　自定义 .ini 和自定义模板 .docx 是软件用户创建的网页采集XPath 语句和最终生成文件中使用的 Docx 模板。具体设置方法请参考ini文件中的说明。请注意，Docx 模板文件中的“@@”等字符是 INI 文件中定义的标记字符串，用于替换采集网页的内容。替换关键字的前缀和后缀以及模板文件名在ini文件中定义。

　　2、在使用本程序前，请先建立自己的INI配置文件和Docx模板文件。（详见附件七叉叉、天眼叉两个配置文件及起诉书模板）

　　需要注意的是，模板文件支持对文档的不同部分使用不同的URL来采集，注意Url设置。

　　三、使用方法：

　　启动程序——选择模板——点击采集数据按钮旁边的黑色三角，点击下拉菜单，点击需要采集的部分。等待浏览器加载网页，手动输入要查询的内容，点击查询，找到数据的具体页面，然后点击采集数据按钮，观察是否已经获取到需要的数据右侧的列表。继续打开下拉菜单，选择下一个需要采集的部分，如果URL已经改变，等待浏览器加载并找到需要的数据页面。点击采集Data按钮，查看右侧列表中是否获取到第二部分数据。重复此操作，直到所有数据采集完成。

　　如果两部分的URL相同，在点击下一部分的下拉菜单之前，需要在浏览器中重新查询新数据。新的数据页出来后，点击下拉菜单选择采集的下一部分。（如果URL相同，点击下一部分会直接从网页中取数据，如果浏览器不换页，数据就会出错。）如果有一部分需要重新-采集，请点击名称的部分，然后点击采集按钮重复采集部分（可以随意更改浏览器的数据页，会得到不同的数据公司）。

　　如果列表中采集得到的数据结果有偏差，可以点击修改。如果XPath语句有错误，也可以自己修改看看测试结果（XPath语句修改后会立即重新获取浏览器的数据，所以浏览器最好是有效的数据页）。程序中修改的XPath语句不会保存在INI文件中，请手动保存。

　　如果列表中的数据正确，并且预览窗口中的Docx模板内容正确，可以点击创建文档按钮，填写要生成的文件名。软件会将模板中的索引字符串替换为抓取的网页数据，并自动生成Docx文档。

　　需要注意的是，右下角的Docx预览窗口不能完全支持Word文档，非标准文档可能会出现文字缺失或错位的情况。在这种情况下，您可以忽略它，或将模板文件更改为标准文本格式（单行距）。

　　压缩包中自带七叉叉简单模板、天眼查配置文件和起诉书供用户参考。

　　这个程序的使用有一个门槛：通过手动操作Chrome获取网页数据的XPath语句。

　　建议电脑新手找懂一点鼠标操作的人帮忙获取并填写INI配置文件

　　也可以在本帖留言，或在百度上联系作者获取程序使用帮助。

　　软件操作演示可以看到压缩包中的Demo.gif*敏*感*词*文件

　　最新版:IMGspider Pro-更高效率图片采集WP插件

　　IMGspider Pro图片蜘蛛插件是在原IMGspider图片采集插件的基础上，全新的功能扩展专业版插件。IMGspider Pro在免费版的基础上增加了超强大的Chrome图片采集助手浏览器扩展，实现更高效的图片采集效率更多网站图片采集支持（如微信、今日头条等）。

　　插件概述 1. 基本设置。

　　通用设置

　　代理设置

　　插件支持站长还增加了代理服务器配置，以满足中国海外网站无法访问的图片采集，或者加速为图片采集。

　　图片选项

　　IMGspider图片蜘蛛插件支持自定义一些采集图片参数选项，包括：

　　过滤规则

　　该插件提供了多种过滤规则来过滤一些特定的外部链接图片，包括：

　　2. 全局扫描。

　　该功能的主要目的是方便部分站长全局检测已发布的文章外链图片，实现一键采集已发布的文章、页面和媒体外链图片。

　　3. 图片采集助手

　　闪电博客是为IMGSpider图片蜘蛛WordPress插件开发的浏览器扩展，实现更高效的WordPress图片采集，并支持微信公众号、头条号等社交图片采集。

　　免费版imgSpider更多地依赖站长网站服务器对采集图片，而专业版imgSpider利用插件和浏览器扩展的集成巧妙地利用本地网络进行图片抓取，无论是在采集的效率和网站支持上都有了质的飞跃。

　　版本比较

0

2022-10-11

自动采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

汇总:XPath2Doc，一个敏感词采集网页生成Word Docx文件的工具

0 个评论

发起人

AI时代内容工厂

汇总:XPath2Doc，一个*敏*感*词*采集网页生成Word Docx文件的工具

0 个评论

发起人

相关问题

汇总:XPath2Doc，一个敏感词采集网页生成Word Docx文件的工具