php抓取网页标签(GoogleSearch如何使用.txt?)

优采云 发布时间: 2022-02-18 13:27

  php抓取网页标签(GoogleSearch如何使用.txt?)

  并非所有网络机器人都遵循 robots.txt。坏人(例如电子邮件地址抓取工具)构建不遵循此协议的机器人。事实上,一些不良行为者使用 robots.txt 文件来查找您的私人内容所在的位置。虽然阻止爬虫访问私人页面(如登录和管理页面)似乎合乎逻辑,因此它们不会出现在索引中,但将这些 URL 的位置放在可公开访问的 robots.txt 文件中也意味着恶意软件可以更容易地找到它们。最好对这些页面进行 NoIndex 并将它们保留在登录表单后面,而不是将它们放在您的 robots.txt 文件中。

  您可以在我们学习中心的 robots.txt 部分阅读更多详细信息。

  在 GSC 中定义 URL 参数

  一些 网站(在电子商务中最常见)通过将某些参数附加到 URL 来使相同的内容在多个不同的 URL 上可用。如果您曾经在网上购物,您可能已经使用过滤器缩小了搜索范围。例如,您可以在亚马逊上搜索“鞋子”,然后按尺码、颜色和款式细化您的搜索。每次优化时,URL 都会略有变化:

  https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id= 32&highlight=green+dress&cat_id=1&sessionid=123$affid=43

  Google 如何知道向搜索者提供哪个版本的 URL?Google 在确定代表 URL 本身方面做得很好,但您可以使用 Google Search Console 中的 URL 参数功能告诉 Google 您希望他们如何处理您的页面。如果您使用此功能告诉 Googlebot“不要抓取带有 ___ 参数的网址”,您实际上是在要求 Googlebot 对 Googlebot 隐藏此内容,这可能会导致这些网页从搜索结果中删除。如果这些参数创建重复页面,这就是您想要的,但如果您希望这些页面被索引,则不理想。

  爬虫能找到你所有的重要内容吗?

  既然您已经了解了一些使搜索引擎爬虫远离您不重要的内容的策略,那么让我们来看看可以帮助 Googlebot 找到您的重要页面的优化。

  有时,搜索引擎将能够抓取您的 网站 的某些部分,但其他页面或部分可能由于某种原因而被遮挡。确保搜索引擎可以发现您想要索引的所有内容,而不仅仅是您的主页,这一点很重要。

  问问自己这个问题:机器人可以爬过你的 网站,而不仅仅是在上面吗?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线