抓取动态网页(如何为网络剪贴器制作特殊页面?更具体地说:如何在PHP中检测到Web工具?)

优采云 发布时间: 2021-11-07 09:10

  抓取动态网页(如何为网络剪贴器制作特殊页面?更具体地说:如何在PHP中检测到Web工具?)

  较短

  我的一位客户有一个非常空旷的风格化网页,其中包括表格、图形和表格。当有人访问他们的 网站 时,它看起来很棒,但许多其他 网站 正在抓取页面并在他们的 网站 上显示空缺。

  以前,他们的 网站 是一个带有一些基本标记的简单页面,例如标题、段落和粗体文本。其他网站 选择这个功能还不错,但是用了更高级的标签后就落后了。

  如何为网络剪辑器制作一个特殊页面?更具体地说:如何在 PHP 中检测到网络爬虫正在查看页面?从那里,我可以弄清楚如何为客户创建一个自定义的 cms 页面,以便他们可以使用该页面自己填写简单的标记。

  罗托拉

  首先,标题、段落等都是很好的标记。如果“高级标记”没有这些,那根本就不是“高级标记”,而是坏标记。因此,无论页面是否被抓取,都应该使用语义标记。此外,还有更多的方式赋予 HTML 意义,例如微数据。

  但是,由于您似乎了解网络爬虫(或至少了解它们)并已授予他们(隐式或明确)爬取 网站 的权限,因此它们的运营商应提供文档以说明您在寻找什么。

  这些运营商最好根本不使用 webscapers,但他们应该以结构化的方式(例如 JSON 或 XML)获取他们正在寻找的信息,这些信息是您在常规 HTML 页面上额外生成的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线