网页数据抓取软件(WinWebCrawler蜘蛛顶级搜索引擎的软件特色设置)
优采云 发布时间: 2021-09-30 13:40网页数据抓取软件(WinWebCrawler蜘蛛顶级搜索引擎的软件特色设置)
Win web crawler是一个强大的网络抓取工具。它可以从文件中提取网址、网站、元标记、网络目录、标记之间的纯文本、搜索结果、页面大小和URL列表中的高速、多线程和准确数据,并直接将数据保存到磁盘文件中。该程序有许多过滤器来限制会话,如URL过滤器、文本过滤器、数据过滤器、域过滤器、日期修改等。欢迎下载
软件特性
1、关键词
“Win Web Crawler”蜘蛛顶搜索引擎用于正确的网站,并从中获取数据
2、快速启动
“Win Web Crawler”将查询所有流行的搜索引擎,从搜索结果中提取所有匹配的URL,删除重复的URL,最后访问这些网站,并从中提取数据
3、深度
在这里,您需要告诉“win Web Crawler”-在指定的网站中要挖掘多少级别。如果希望“win Web Crawler”保留在第一页,只需选择“仅处理第一页”。设置“0”将处理并查找整个网站中的数据。设置“1”将仅处理根目录下具有关联文件的索引或主页
4、蜘蛛库URL
使用此选项,您可以告诉win web crawler始终处理外部站点的基本URL
5、忽略URL
设置此选项以避免重复URL,例如
这两个URL是相同的。当您设置为忽略URL时,“win Web Crawler”会将所有URL转换为小写,并可以删除上述重复的URL。但是,某些服务器区分大小写,您不应在这些特殊站点上使用此选项