php抓取网页标签(GoogleSearch如何使用.txt？)

优采云发布时间: 2022-02-18 13:27

　　并非所有网络机器人都遵循 robots.txt。坏人（例如电子邮件地址抓取工具）构建不遵循此协议的机器人。事实上，一些不良行为者使用 robots.txt 文件来查找您的私人内容所在的位置。虽然阻止爬虫访问私人页面（如登录和管理页面）似乎合乎逻辑，因此它们不会出现在索引中，但将这些 URL 的位置放在可公开访问的 robots.txt 文件中也意味着恶意软件可以更容易地找到它们。最好对这些页面进行 NoIndex 并将它们保留在登录表单后面，而不是将它们放在您的 robots.txt 文件中。

　　您可以在我们学习中心的 robots.txt 部分阅读更多详细信息。

　　在 GSC 中定义 URL 参数

　　一些网站（在电子商务中最常见）通过将某些参数附加到 URL 来使相同的内容在多个不同的 URL 上可用。如果您曾经在网上购物，您可能已经使用过滤器缩小了搜索范围。例如，您可以在亚马逊上搜索“鞋子”，然后按尺码、颜色和款式细化您的搜索。每次优化时，URL 都会略有变化：

　　https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id= 32&highlight=green+dress&cat_id=1&sessionid=123$affid=43

　　Google 如何知道向搜索者提供哪个版本的 URL？Google 在确定代表 URL 本身方面做得很好，但您可以使用 Google Search Console 中的 URL 参数功能告诉 Google 您希望他们如何处理您的页面。如果您使用此功能告诉 Googlebot“不要抓取带有 ___ 参数的网址”，您实际上是在要求 Googlebot 对 Googlebot 隐藏此内容，这可能会导致这些网页从搜索结果中删除。如果这些参数创建重复页面，这就是您想要的，但如果您希望这些页面被索引，则不理想。

　　爬虫能找到你所有的重要内容吗？

　　既然您已经了解了一些使搜索引擎爬虫远离您不重要的内容的策略，那么让我们来看看可以帮助 Googlebot 找到您的重要页面的优化。

　　有时，搜索引擎将能够抓取您的网站的某些部分，但其他页面或部分可能由于某种原因而被遮挡。确保搜索引擎可以发现您想要索引的所有内容，而不仅仅是您的主页，这一点很重要。

　　问问自己这个问题：机器人可以爬过你的网站，而不仅仅是在上面吗？

0

2022-02-18

php抓取网页标签

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页标签(GoogleSearch如何使用.txt？)

0 个评论

发起人

AI时代内容工厂

php抓取网页标签(GoogleSearch如何使用.txt？)

0 个评论

发起人

相关问题