在线抓取网页( Google中自动排位第一的秘诀(抱歉!)(组图))

优采云发布时间: 2021-11-30 08:15

　　在线抓取网页(

Google中自动排位第一的秘诀(抱歉!)(组图))

　　前言

　　如果您通过 Google 搜索运营、管理或推广在线内容，或通过在线内容获利，则本指南适用于您。如果你是一个快速成长的企业，一个网站的网站站长，网络代理的SEO专家，或者对搜索机制有浓厚兴趣的DIY SEO专家，这个指南也适用于你。

　　如果您有兴趣根据我们的最佳实践彻底了解 SEO 基础知识，那么本指南也适用于您。本指南不会提供让您的网站自动在 Google 中排名第一的任何提示（抱歉！），但如果您遵循下面列出的最佳实践，您有望让搜索引擎更轻松地获取、理解和索引你的内容。

　　搜索引擎优化 (SEO) 通常是指对网站的各个部分进行细微的修改。单独来看，这些修改可能只是渐进式和细微的改进，但当与其他优化相结合时，它们可能会对您的网站用户体验和自然搜索结果中的性能产生重大影响。您可能已经熟悉本指南中的许多主题，因为它们是任何网页的基本元素，但您可能不会充分利用它们。

　　您应该优化网站以满足用户需求。您的一个用户是搜索引擎，它可以帮助其他用户发现您的内容。搜索引擎优化是指帮助搜索引擎理解和呈现内容。你的网站可能比我们的例子网站更简单或更复杂，呈现的内容也可能大不相同，但我们下面讨论的优化主题对于网站@的所有大小和类型都是一样的> 适用。

　　我们希望本指南能为您带来一些关于如何改进网站的全新想法，我们也希望您能在 Google 网站网站站长帮助论坛1中积极分享您的问题、反馈和成功案例。

　　相关术语

　　以下简要词汇表收录本指南中使用的重要术语：

　　索引——谷歌将把它知道的所有网页都存储在它的“索引”中。每个网页的索引条目描述了网页的内容和位置（URL）。索引是指 Google 抓取、读取网页并将其添加到索引中的过程。例如：Google 今天在我的网站上索引了几个网页。

　　爬行——寻找新页面或更新页面的过程。Google 将通过点击链接、阅读站点地图或其他各种方法来发现 URL。Google 会抓取网络以查找新页面，然后（在适当的情况下）将这些页面编入索引。

　　从网络爬取（提取）网页并为其编制索引的爬虫自动化软件。

　　Googlebot - Google 抓取工具的通用名称。Googlebot 将继续抓取网页。

　　SEO-搜索引擎优化：使您的网站更易于抓取和索引到搜索引擎中的过程。也可以指从事搜索引擎优化工作的人的职称。例如，我们刚刚聘请了一个新的 SEO 来增加我们在互联网上的曝光率。

　　您的网站是 Google 搜索引擎收录吗？

　　您可以在 Google 搜索引擎中对您的网站主页 URL 执行“站点：”搜索。如果你能看到结果，就说明你的网站在索引中。如“站点：”。

　　谷歌虽然可以抓取数十亿个网页的内容，但难免会漏掉一些网站。所以如果你的网站不是收录，可能是以下原因造成的：

　　如何让我的网站出现在 Google 搜索结果中？

　　将网站收录到谷歌搜索结果中是完全免费的，操作简单，甚至不需要向谷歌提交网站。Google 是一个完全自动化的搜索引擎，它使用网络爬虫不断抓取网页，以便找到可以添加到 Google 索引中的网站。

　　事实上，谷歌搜索结果中显示的大部分网站并不是手动提交纳入索引的，而是谷歌在抓取网页时发现并自动添加的。了解 Google 如何发现、抓取和呈现网页。

　　我们提供了网站站长指南，帮助网站站长搭建网站方便Google处理。尽管我们不能保证我们的抓取工具会找到特定的网站，但遵循这些准则应该会使您的网站出现在我们的搜索结果中。

　　Google Search Console 提供了一系列工具来帮助您向 Google 提交内容并监控您的网站/mobile 应用程序在 Google 搜索结果中的曝光率。如果您愿意，当 Google 在抓取您的过程中发现任何严重问题时，Search Console 甚至可以向您发送提醒网站。注册 Search Console。

　　首先，你需要问自己以下关于你的网站的基本问题：

　　帮助 Google 发现您的内容

　　要让网站出现在 Google 搜索结果中，首先要确保 Google 可以找到它。最好的方法是提交站点地图。站点地图是网站上的一种文档，它可以通知搜索引擎网站上的新网页或更新网页。详细了解如何构建和提交站点地图。

　　Google 还通过其他网页上的链接查找网页。

　　让 Google 知道不应抓取哪些页面

　　最佳实践

　　如果是非敏感信息，可以使用robots.txt防止不必要的爬取

　　“robots.txt”文件会告诉搜索引擎他们是否可以访问您的网站的每个部分并执行爬取。该文件必须命名为“robots.txt”，并且应该位于网站的根目录中。被robots.txt 屏蔽的网页也可能被抓取，因此您应该使用更安全的方法来保护敏感页面。

　　您可能不希望网站的某些页面被抓取，因为这些页面在搜索引擎的搜索结果中显示时可能对用户毫无用处。如果您想阻止搜索引擎抓取您的页面，Google Search Console 可以提供方便的 robots.txt *敏*感*词*来帮助您创建此文件。请注意，如果您的网站使用子域，并且您不希望 Google 抓取特定子域上的某些网页，那么您必须为该子域创建单独的 robots.txt 文件。

　　避免的做法：

　　不要让 Google 抓取内部搜索结果页面。用户不喜欢点击搜索引擎结果，而是登录您的网站上的其他搜索结果页面。

　　允许抓取代理服务器创建的 URL。

　　如果是敏感信息，请使用更安全的方法

　　为了防止用户访问敏感或机密信息，Robots.txt 不是一种适当或有效的方式。它只是告诉运行良好的爬虫不要爬取相应的页面，但它不会阻止您的服务器将这些页面发送到请求它们的浏览器。原因之一是：如果互联网上某处（如referrer日志）有这些被禁止的URL的链接，那么搜索引擎仍然可以引用这些URL（只显示URL，但不显示标题或摘要） )。此外，不合规的搜索引擎或不同意遵守机器人排除标准的流氓搜索引擎可能会违反您的 robots.txt 文件中的说明。最后，用户可能会出于好奇而查看您的 robots.txt 文件中的目录或子目录，

　　在这些情况下，如果您只是希望网页不显示在 Google 中，您可以使用 noindex 标签，而不必担心任何用户会通过链接访问网页。但是，为了真正安全，您应该使用合适的授权方式（例如，需要用户密码才能访问）或将网页从网站中彻底删除。

0

2021-11-30

在线抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

在线抓取网页( Google中自动排位第一的秘诀(抱歉!)(组图))

0 个评论

发起人