解决方案:【重磅】33款可用来抓数据的开源爬虫软件工具

优采云发布时间: 2022-11-23 00:24

　　这个项目还很不成熟，但是功能已经基本完成了。要求用户熟悉 XML 和正则表达式。目前这个工具可以抓取各种论坛，贴吧，各种CMS系统。Discuz!、phpbb、论坛和博客等文章可以通过此工具轻松抓取。抓取定义完全采用 XML 格式，适合 Java 开发人员。

　　指示：

　　下载右边的.war包，导入eclipse，

　　使用 WebContent/sql 下的 wcc.sql 文件创建示例数据库，

　　修改src包下wcc.core的dbConfig.txt，将用户名和密码设置为自己的mysql用户名和密码。

　　然后运行SystemCore，运行时会在控制台，不带参数会执行默认的example.xml配置文件，有参数时name为配置文件名。

　　系统自带3个例子，baidu.xml抓取百度知乎，example.xml抓取我的javaeye博客，bbs.xml抓取一个discuz论坛内容。

　　特点：通过 XML 配置文件高度可定制和可扩展

　　12. 蜘蛛侠

　　Spiderman是一款基于微内核+插件架构的网络蜘蛛。它的目标是通过简单的方式将复杂的目标网页信息捕获并解析为它需要的业务数据。

　　如何使用？

　　首先，确定你的目标网站和目标网页（就是你要获取数据的某类网页，比如网易新闻的新闻页面）

　　然后，打开目标页面，分析页面的HTML结构，得到想要的数据的XPath。请参阅下文了解如何获取 XPath。

　　最后在一个xml配置文件中填入参数，运行Spiderman！

　　特点：灵活，扩展性强，微内核+插件架构，通过简单配置即可完成数据抓取，无需编写一行代码

　　13. 网页魔术

　　webmagic是一款无需配置，方便二次开发的爬虫框架。它提供简单灵活的API，只需少量代码即可实现爬虫。

　　webmagic采用完全模块化设计，功能覆盖爬虫全生命周期（链接提取、页面下载、内容提取、持久化），支持多线程爬取、分布式爬取，支持自动重试、自定义UA/Cookies等功能.

　　Webmagic 收录

强大的页面提取功能。开发者可以方便地使用css选择器、xpath和正则表达式提取链接和内容，支持多个选择器链调用。

　　使用 webmagic 的文档：

　　查看源代码：

　　特点：功能覆盖整个爬虫生命周期，使用XPath和正则表达式提取链接和内容。

　　备注：这是一款国产开源软件，黄奕华贡献

　　14. 网络收获

　　Web-Harvest 是一个 Java 开源的 Web 数据提取工具。它可以采集

指定的网页并从这些网页中提取有用的数据。Web-Harvest主要使用XSLT、XQuery、正则表达式等技术实现对text/xml的操作。

　　实现原理是利用httpclient根据预定义的配置文件获取页面的所有内容（httpclient的内容在本博客的一些文章中已有介绍），然后利用XPath、XQuery、正则表达式等技术进行实现 text/xml 内容过滤操作，选择准确的数据。近两年流行的垂直搜索（如：酷讯等）也是采用类似原理实现的。对于Web-Harvest应用来说，关键是理解和定义配置文件，另一个是考虑如何处理数据的Java代码。当然，在爬虫启动之前，也可以在配置文件中填充Java变量，实现动态配置。

　　特点：使用XSLT、XQuery、正则表达式等技术实现对Text或XML的操作，具有可视化界面

　　15. 网络狮身人面像

　　WebSPHINX 是 Java 类包和网络爬虫的交互式开发环境。网络爬虫（也称为机器人或蜘蛛）是可以自动浏览和处理网页的程序。WebSPHINX 由两部分组成：爬虫工作平台和WebSPHINX 类包。

　　授权协议：Apache

　　开发语言：Java

　　特点：由两部分组成：爬虫工作平台和WebSPHINX类包

　　16. 雅西

　　YaCy 是一个基于 p2p 的分布式网络搜索引擎。它也是一个Http缓存代理服务器。该项目是一种构建基于 p2p 的网络索引网络的新方法。它可以搜索你自己的或者全局的索引，或者爬取你自己的网页或者开始分布式爬取等。

　　特点：基于P2P的分布式网络搜索引擎

　　Python 爬虫 17、QuickRecon

　　QuickRecon 是一个简单的信息采集

工具，可帮助您查找子域名、执行区域传输、采集

电子邮件地址、使用微格式查找关系等。QuickRecon 是用 python 编写的，同时支持 linux 和 windows 操作系统。

　　功能：查找子域名、采集

电子邮件地址和寻找人际关系

　　18. 铁轨炮

　　这是一个非常简单易用的刮板。一个简单实用高效的python网络爬虫爬虫模块，支持爬取javascript渲染的页面

　　特点：简单、轻量、高效的网络爬虫框架

" />

　　备注：本软件也有中文打开

　　github 下载：#readme

　　19. 碎片化

　　Scrapy是一套基于Twisted的异步处理框架和纯python实现的爬虫框架。用户只需要自定义开发几个模块就可以轻松实现一个爬虫，用来抓取网页内容和各种图片，非常方便~

　　源代码：

　　特点：基于Twisted的异步处理框架，文档齐全

　　C++爬虫20、hispider

　　HiSpider 是一种快速且高性能的爬虫，具有很高的速度

　　严格来说只能是蜘蛛系统的框架，并没有具体的要求。目前只能提取URL，URL去重，异步DNS解析，队列任务，支持N机分布式下载，支持网站定向下载（需要配置hispiderd.ini白名单）。

　　特点及用途：

　　工作过程：

　　许可协议：BSD

　　开发语言：C/C++

　　操作系统：Linux

　　特点：支持多机分布式下载，支持网站定向下载

　　21.拉宾

　　larbin 是由法国青年Sébastien Ailleret 独立开发的开源网络爬虫/网络蜘蛛。larbin的目的是为了能够跟踪页面的url进行扩展爬取，最终为搜索引擎提供广泛的数据源。Larbin 只是一个爬虫，也就是说，larbin 只爬取网页，由用户来做解析。另外larbin也没有提供如何在数据库中存储和创建索引。一个简单的 larbin 爬虫每天可以抓取 500 万个网页。

　　使用larbin，我们可以轻松获取/确定单个网站的所有链接，甚至镜像一个网站；我们也可以用它来创建一个url列表组，比如对所有网页进行url retrive后，获取xml链接。或 mp3，或定制的 larbin，可用作搜索引擎的信息来源。

　　特点：高性能爬虫软件，只负责爬取不负责分析

　　22.美沙机器人

　　Methabot 是一款针对 WEB、FTP 和本地文件系统的速度优化和高度可配置的爬虫软件。

　　特点：针对速度进行了优化，可以抓取WEB、FTP和本地文件系统

　　源代码：

　　C#爬虫23、NWebCrawler

　　NWebCrawler 是一个开源的、C# 开发的网络爬虫程序。

　　特征：

　　许可协议：GPLv2

　　开发语言：C#

　　操作系统：视窗

　　项目主页：

　　特点：统计信息，执行过程可视化

　　24.西诺勒

　　国内第一款微博数据爬虫程序！原名“新浪微博爬虫”。

　　登录后，可以指定用户为切入点，以用户的关注、粉丝为线索，顺着网络关系采集

用户的基本信息、微博数据、评论数据。

　　本应用所获取的数据可作为科学研究、新浪微博相关研发等方面的数据支持，但请勿用于商业用途。应用程序基于.NET2.0框架，需要SQL SERVER作为后台数据库，提供SQL Server的数据库脚本文件。

　　另外由于新浪微博API的限制，爬取到的数据可能不完整（比如获取粉丝数限制，获取微博条数限制等）。

　　本程序版权归作者所有。您可以自由地：复制、分发、展示和表演当前作品，以及制作衍生作品。您不得将当前作品用于商业目的。

　　5.x 版本已经发布！本版本共有6个后台工作线程：爬取用户基本信息机器人、爬取用户关系机器人、爬取用户标签机器人、爬取微博内容机器人、爬取微博评论机器人、调整请求机器人的频率。性能更高！最大限度地发挥爬虫的潜力！从目前的测试结果来看，个人使用已经足够了。

　　这个程序的特点：

　　6个后台工作线程，最大限度地发挥爬虫的性能潜力！

　　界面提供参数设置，灵活方便

　　抛弃app.config配置文件，自行实现配置信息的加密存储，保护数据库账号信息

　　自动调整请求频率，防止超限，也避免速度变慢降低效率

　　任意控制爬虫，可以随时暂停、继续、停止爬虫

" />

　　良好的用户体验

　　许可协议：GPLv3

　　开发语言：C#.NET

　　操作系统：视窗

　　25.蜘蛛网

　　Spidernet是一个以递归树为模型的多线程网络爬虫程序，支持获取text/html资源。可以设置爬取深度，限制最大下载字节数，支持gzip解码，支持gbk(gb2312)和utf8编码资源；存储在sqlite数据文件中。

　　源码中的TODO:标签描述了未完成的功能，希望提交你的代码。

　　源代码：

　　特点：一个以递归树为模型的多线程网络爬虫程序，支持GBK（gb2312）和utf8编码的资源，使用sqlite存储数据

　　26. 网络爬虫

　　mart and Simple Web Crawler 是一个网络爬虫框架。集成的 Lucene 支持。爬虫可以从单个链接或链接数组开始，提供两种遍历模式：最大迭代次数和最大深度。可以设置过滤器来限制爬回的链接。默认情况下，提供了三个过滤器：ServerFilter、BeginningPathFilter 和 RegularExpressionFilter。这三个过滤器可以与 AND、OR 和 NOT 结合使用。可以在解析过程中或页面加载前后添加*敏*感*词*器。介绍内容来自Open-Open

　　特点：多线程，支持抓取PDF/DOC/EXCEL等文档源

　　27.网络矿工

　　网站数据采集

软件网络矿工采集

器（原soukey picking）

　　Soukey picking网站数据采集软件是一款基于.Net平台的开源软件，也是目前同类网站数据采集软件中唯一一款开源的软件。Soukey虽然选择了开源，但并不影响软件功能的提供，甚至比一些商业软件还要丰富。

　　特点：功能丰富，不输商业软件

　　PHP爬虫28、OpenWebSpider

　　OpenWebSpider是一个开源的多线程Web Spider（robot：机器人，crawler：爬虫）和一个收录

许多有趣功能的搜索引擎。

　　特点：具有许多有趣功能的开源多线程网络爬虫

　　29. PhpDig

　　PhpDig 是一个用 PHP 开发的网络爬虫和搜索引擎。通过索引动态和静态页面来构建词汇表。当搜索查询时，它会以一定的排序顺序显示收录

关键字的搜索结果页面。PhpDig 包括一个模板系统，可以索引 PDF、Word、Excel 和 PowerPoint 文档。PHPdig适用于更专业、更深入的个性化搜索引擎，用它来构建某个领域的垂直搜索引擎是最佳选择。

　　演示：

　　特点：具有采集

网页内容和提交表单的功能

　　30.想想

　　ThinkUp 是一个社交媒体透视引擎，可以采集

twitter 和 facebook 等社交网络数据。一种交互式分析工具，可从个人社交网络帐户采集

数据，对其进行存档和处理，并将数据绘制成图表以便更直观地查看。

　　源代码：

　　特点：社交媒体透视引擎，采集Twitter、Facebook等社交网络数据，可进行交互分析，并以可视化形式展示结果

　　31.微购

　　微购社交购物系统是一款基于ThinkPHP框架开发的开源购物分享系统。同时也是一套开源的淘宝建站程序，供站长使用。整合了淘宝、天猫、淘宝等300多家网站。首页商品数据采集界面为广大淘宝站长提供傻瓜式淘客建站服务。懂HTML的可以制作程序模板，免费开放下载。是广大淘宝站长的首选。

　　演示网址：

　　许可协议：GPL

　　开发语言：PHP

　　操作系统：跨平台

　　ErLang 爬虫 32、Ebot

　　Ebot 是一种使用 ErLang 语言开发的可扩展的分布式网络爬虫。URL 存储在数据库中，可以通过 RESTful HTTP 请求进行查询。

　　源代码：

　　项目主页：

　　特点：可扩展的分布式网络爬虫

　　Ruby 爬虫 33、Spidr

　　Spidr是一个Ruby网络爬虫库，可以完整的爬取整个网站，多个网站，一个链接到本地。

　　特点：一个或多个网站和某个链接可以在本地完全爬取

　　解决方案:企业名录采集软件用哪个？

　　比如我要采集加工企业，只需要在采集功能中选择加工企业的行业类别，点击采集就可以采集到所有的企业信息。

　　此外，还可以通过地图采集等类似B2B网站采集

企业信息（基本全覆盖）。以高德地图为例，只需要进入区域+加工公司，即可实现地图采集采集常州市。加工公司为例：

" />

　　一键匹配采集企业信息，解决企业数据不足问题

　　只要选择要查找的企业类型，即可一键获取企业名称、*敏*感*词*等重要信息，并且由于实时更新，只要有新的企业信息产生，您就可以立即获取

" />

　　有效：

　　可以用很多地图去搜索，信息真的很全面，数据也很准确，很实时

　　功能全面，速度快。可以根据各行各业的关键字搜索信息。去重功能很好很方便。

　　很好用，而且资源很全，各种地方都有

0

2022-11-23

无规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:【重磅】33款可用来抓数据的开源爬虫软件工具

0 个评论

发起人