抓取网页数据工具(2019-04-01EnglishVersionMagiBot)

优采云发布时间: 2021-09-30 03:10

　　关于 MagiBot 抓取程序2019-04-01

　　英文版

　　魔法机器人

　　MagiBot（软件项目名称Matarael，以下简称MagiBot）是一款网络爬虫工具（也称“蜘蛛程序”）。爬行是指 MagiBot 提取新的 Web 内容并更新 Web 内容和索引的过程。

　　我们（以下“我们”可能指MagiBot、Magi项目的其他软件，或Peak Labs Limited本身）将使用大量计算机进行上述“抓取”过程，在此过程中，MagiBot将按照一定的规律工作。算法并决定要爬取的网站、频率和顺序等特征。

　　限制或禁止 MagiBot 在网站上抓取您的内容

　　如果您想限制或禁止MagiBot爬取您在网站上的内容，除了使用一些系统方法拒绝网络爬虫的访问和爬取外，您还可以设置robots规则来引导MagiBot爬取。

　　MagiBot 将严格遵守机器人排除协议及类似变体，包括但不限于robots.txt、x-robots-tags、rel 等标注方式。在解析你的规则集时，MagiBot 会优先处理两个 User-Agents 下的规则，magibot 或 matarael（不区分大小写）。

　　MagiBot 还支持元标记，例如 noindex、nofollow、nosnippet 和 noarchive，以限制索引和搜索显示。

　　在极少数特殊情况下，MagiBot 可能会针对您的禁止列表中收录的路径发起请求，但不会使用或索引此信息。其他一些搜索引擎有时会使用锚点等信息为特定的禁止爬取路径（如主页）生成相当于nosnippet的显示，但我们会谨慎处理这种灰色区域行为。

　　MagiBot 将根据其爬行计划权衡 Keep-Alive 行为。如果您在服务器日志中看到socket abort 或reset 记录，这通常是由于MagiBot 主动断开连接造成的，而不是您的服务器的问题。例如，为了减少双方的带宽和资源占用，我们会在网络传输过程中进行流式分析。当发现JPEG图像的SOF等信息时，如果尺寸不符合一定的标准，可以立即结束请求。

　　MagiBot 支持的协议和标准

　　MagiBot 支持并符合大多数现有协议和标准。全面支持IDN（如中文域名）、IPv6、SLD等技术标准。对于标记结构化数据，MagiBot 支持 JSON-LD、Microdata、RDF/RDFa 和 Facebook OGP 词汇，以及它们的许多变体。我们有能力从纯文本中提取和学习结构化知识和概念，但仍然建议网站管理者在清晰的信息和实体上使用结构化数据标注，以优化在各种搜索引擎和社交网络中的展示效果。

　　MagiBot 捕捉智能手机应用程序的内容

　　MagiBot 具有主动抓取移动应用程序内容的能力。作为一项全新的技术，我们将在不违反相关用户协议的情况下以自律的方式进行抓取。您可以通过以下任何一种方式阻止我们模拟用户交互和内容抓取：

　　在清单中声明机器人：'noindex' 在 API 响应的标头中声明 x-robots-tag ='noindex'

0

2021-09-30

抓取网页数据工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据工具(2019-04-01EnglishVersionMagiBot)

0 个评论

发起人