抓取网页数据工具(2019-04-01EnglishVersionMagiBot)

优采云 发布时间: 2021-09-30 03:10

  抓取网页数据工具(2019-04-01EnglishVersionMagiBot)

  关于 MagiBot 抓取程序2019-04-01

  英文版

  魔法机器人

  MagiBot(软件项目名称Matarael,以下简称MagiBot)是一款网络爬虫工具(也称“蜘蛛程序”)。爬行是指 MagiBot 提取新的 Web 内容并更新 Web 内容和索引的过程。

  我们(以下“我们”可能指MagiBot、Magi项目的其他软件,或Peak Labs Limited本身)将使用大量计算机进行上述“抓取”过程,在此过程中,MagiBot将按照一定的规律工作。算法并决定要爬取的网站、频率和顺序等特征。

  限制或禁止 MagiBot 在 网站 上抓取您的内容

  如果您想限制或禁止MagiBot爬取您在网站上的内容,除了使用一些系统方法拒绝网络爬虫的访问和爬取外,您还可以设置robots规则来引导MagiBot爬取。

  MagiBot 将严格遵守机器人排除协议及类似变体,包括但不限于robots.txt、x-robots-tags、rel 等标注方式。在解析你的规则集时,MagiBot 会优先处理两个 User-Agents 下的规则,magibot 或 matarael(不区分大小写)。

  MagiBot 还支持元标记,例如 noindex、nofollow、nosnippet 和 noarchive,以限制索引和搜索显示。

  在极少数特殊情况下,MagiBot 可能会针对您的禁止列表中收录的路径发起请求,但不会使用或索引此信息。其他一些搜索引擎有时会使用锚点等信息为特定的禁止爬取路径(如主页)生成相当于nosnippet的显示,但我们会谨慎处理这种灰色区域行为。

  MagiBot 将根据其爬行计划权衡 Keep-Alive 行为。如果您在服务器日志中看到socket abort 或reset 记录,这通常是由于MagiBot 主动断开连接造成的,而不是您的服务器的问题。例如,为了减少双方的带宽和资源占用,我们会在网络传输过程中进行流式分析。当发现JPEG图像的SOF等信息时,如果尺寸不符合一定的标准,可以立即结束请求。

  MagiBot 支持的协议和标准

  MagiBot 支持并符合大多数现有协议和标准。全面支持IDN(如中文域名)、IPv6、SLD等技术标准。对于标记结构化数据,MagiBot 支持 JSON-LD、Microdata、RDF/RDFa 和 Facebook OGP 词汇,以及它们的许多变体。我们有能力从纯文本中提取和学习结构化知识和概念,但仍然建议网站管理者在清晰的信息和实体上使用结构化数据标注,以优化在各种搜索引擎和社交网络中的展示效果。

  MagiBot 捕捉智能手机应用程序的内容

  MagiBot 具有主动抓取移动应用程序内容的能力。作为一项全新的技术,我们将在不违反相关用户协议的情况下以自律的方式进行抓取。您可以通过以下任何一种方式阻止我们模拟用户交互和内容抓取:

  在清单中声明机器人:'noindex' 在 API 响应的标头中声明 x-robots-tag ='noindex'

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线