网页抓取工具MetaSeeker V4.1.1

优采云 发布时间: 2020-08-18 13:14

  网页抓取工具MetaSeeker V4.1.1

  文章正文

  MetaSeeker应用领域

  网页抓取工具软件包MetaSeeker V4.1.1(企业版和在线版)正式发布,在线版免费下载和使用,源代码可阅读。自推出以来,深受喜爱,主要应用领域:

  垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网路爬虫DataScraper的强项,每天24小时每周7天无人值守自主调度的周期性批量抓取网页内容,加上断点续传和软件看门狗(Watch Dog),确保您高枕无忧

  移动互联网:手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容,DataScraper实时高效地抓取网页内容,输出含有语义元数据的XML格式的抓取结果文件,确保自动化的数据集成和加工,跨越小规格屏幕诠释和高精准信息检索的障碍。手机互联网不是Web的子集而是全部,由MetaSeeker架设桥梁

  商业情报采集/数据挖掘:俗称商业智能(Business Intelligence),噪音信息滤除、结构化转换,确保数据的准确性和时效性,独有的广域分布式构架,赋予DataScraper无与伦比的情报采集渗透能力,AJAX/Javascript动态页面、服务器动态网页、静态页面、各种信令认证机制,一视同仁。

  MetaSeeker重大特色

  MetaStudio是网页抓取规则编辑器,免编程,只须要在图形界面上的点选和标明,规则手动生成

  MetaStudio是网页抓取规则管理器,语义结构和抓取规则是个知识库,规则生成不再是单程票,可以持续更改,适应业务发展需求

  DataScraper是定题网路爬虫,单批量、周期性、无人值守多种运行模式,基于软件看门狗的故障保护

  DataScraper是网页内容低格工具,输出含有语义元数据的结构化数据抓取结果(XML文件),二维表和树状内容结构同时支持,确保强悍的语义叙述能力

  DataScraper是高渗透力信息采集器,AJAX/javascript、动态内容、鉴权认证都不是障碍(不总是)

  MetaSeeker是高协同开源商业情报采集网络,跨地域分布式、动态IP地址、用户接入线带宽,与布署在中心机房的使用固定IP的解决方案相比,运营成本大大增加。

  MetaSeeker产品组成

  MetaStudio:网页内容语义标明和网站抓取规则生成工具,也是协同性网页内容语义结构管理工具

  DataScraper:定题/聚焦网路爬虫、网页内容抓取和低格工具,可组成跨地域分布式协同性信息采集网络

  MetaCamp:(仅限企业版)互联网内容的语义结构知识库,MetaSeeker用户权限管理和协同管理服务器

  DataStore:(仅限企业版)网页抓取规则数据库

  

  MetaSeeker工具包V4.0.0早已发布,同V3.x版本相比,重点改进了产品界面的友好性、程序运行的鲁棒性、网络爬虫的效率、信息提取规则的适应性,并实现了定时器驱动的周期性信息提取,MetaSeeker V4.0.0兼容V3.x版本,以前版本定义的信息结构和信息提取规则依旧有效,详细版本特点参见MetaSeekerV4.0.0版本说明

  MetaSeeker工具包在线版是免费软件,而且所有I/O操作代码是可阅读的脚本,无任何恶意代码,确保绝对安全。下载说明如下:

  再次提示:请不要使用上述账号尝试登陆GooSeeker,我们当前不支持一站式认证。

  下载

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线