什么是抓取、收录网页抓取工具.txt文件介绍

优采云发布时间: 2021-07-06 05:10

　　网站建好，请问如何获取收录网站搜索引擎？如果页面无法被搜索引擎收录搜索到，则说明该页面尚未展示，无法竞争排名获取SEO流量。本文将围绕爬虫和收录亮点，从基本原理、常见问题和解决方案三个维度探讨搜索引擎优化。什么是爬虫，收录web爬虫robots.txt文件介绍

　　如何查看网站的收录情况

　　设置网页不被搜索引擎索引

　　搜索引擎的原理：搜索引擎将互联网上的网页内容存储在自己的服务器上。当用户搜索一个词时，搜索引擎会在自己的服务器上找到相关内容，即只搜索保存在搜索引擎服务器上的网页。

　　哪些网页可以保存在搜索引擎的服务器上？

　　只有搜索引擎爬虫抓取到的网页才会保存在搜索引擎的服务器上。这个网页的爬虫是搜索引擎的蜘蛛。整个过程分为爬行和爬行。

　　一、什么在爬，收录

　　爬行：

　　这是搜索引擎爬虫爬取网站的过程。谷歌官方的解释是——“爬行”是指寻找新的或更新的网页并将其添加到谷歌的过程；（点此查看谷歌官网文档）

　　收录（索引）：

　　是搜索引擎在其数据库中存储页面的结果，也称为索引。谷歌官方的解释是：谷歌的爬虫（“Googlebot”）已经访问了该页面，分析了其内容和含义，并将其存储在谷歌索引中。索引的网页可以显示在谷歌搜索结果中；（点此查看谷歌官网文档）

　　抓取预算：

　　是搜索引擎蜘蛛在网站上爬取一个页面所花费的总时间上限。一般小的网站（几百或几千页）不用担心，搜索引擎分配的爬取配额不够；大网站（百万或千万页）会更多地考虑这个问题。如果搜索引擎每天爬取几万个页面，整个网站页面爬取可能需要几个月甚至一年的时间。通常，这些数据可以从 Google Search Console 的后端学习。如下图所示，红框内的平均值为网站分配的爬取配额。

　　通过一个例子让大家更好的理解爬取、收录和爬取配额：

　　搜索引擎比作一个巨大的图书馆，网站比作书店，书店里的书比作网站页面，蜘蛛爬虫比作图书馆买家。

　　为了丰富图书馆的藏书量，购书者会定期到书店查看是否有新书存货。翻书的过程可以理解为抓取；

　　当买家认为这本书有价值时，他会购买并带回图书馆采集。这本书合集就是我们所说的收录；

　　每个买家的购书预算有限，他会优先购买价值高的书籍。这个预算就是我们理解的抢配额。

　　二、网络爬虫

　　“爬虫”是一个通用术语，指的是任何程序（例如机器人或“蜘蛛”程序）通过从一个网页到另一个网页的链接来自动发现和扫描网站。 Google 的主要抓取工具称为 Googlebot。

　　三、robots.txt 文件介绍

　　robots.txt 文件指定了爬虫的爬取规则。

　　robots.txt 文件必须位于主机的顶级目录中。

　　一般情况下，robots.txt文件中会出现三种不同的爬取结果：

　　Robots.txt 使用示例：网站目录下的所有文件都可以被所有搜索引擎蜘蛛访问 User-agent：*

　　Disallow:

　　禁止所有搜索引擎蜘蛛访问网站的任何部分

　　User-agent: *

　　Disallow: /

　　禁止所有的搜索引擎蜘蛛访问网站的几个目录

　　User-agent: *

　　Disallow: /a/

　　Disallow: /b/

　　只允许某个搜索引擎蜘蛛访问

　　User-agent: Googlebot

　　Disallow:

屏蔽所有带参数的 URL

User-agent: *

Disallow: /*?

　　网站一些文件应该限制被蜘蛛抓取：

　　一般网站中不需要蜘蛛爬取的文件包括：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片、背景图片、等

　　robots.txt 文件带来的风险及其解决方法：

　　robots.txt 也带来了一定的风险：它还向攻击者指出了网站目录结构和私有数据的位置。设置访问权限和密码保护您的私人内容，使攻击者无法进入。

　　四、如何查看网站的收录情况

　　①通过站点命令。

　　谷歌、百度、必应等主流搜索引擎均支持站点命令。通过站点命令，您可以在宏观层面查看网站已经收录的页面数量。这个值不准确，有一定的波动性，但有一定的参考价值。如下图所示，Google收录为网站提供的网页数量约为165个。

　　②如果网站已经验证了Google Search Console，这样就可以得到网站被Google收录的精确值，如下图红框所示，Google收录了网站的216页;

　　③如果要查询特定页面是否为收录，可以使用info命令。谷歌支持 info 命令，但百度和必应不支持。在谷歌中输入信息：URL。如果返回结果，页面已经是收录，如下图：

　　五、设置网页不被搜索引擎索引

　　推荐使用robots meta标签，在head标签中添加如下代码：

　　可以使用多个指令，这些指令不区分大小写。

　　全部

　　对索引或内容显示没有限制。该命令为默认值，所以显式列出时无效。

　　无索引

　　不要在搜索结果中显示此页面。 nofollow 不遵循此页面上的链接。

　　无

　　与 noindex、nofollow 相同。 noarchive 不会在搜索结果中显示缓存的链接。

　　没有片段

　　不要在搜索结果中显示网页的文本摘要或视频预览。如果静态图像缩略图（如果有）能够提供更好的用户体验，则它们可能仍会显示。这适用于所有形式的搜索结果（例如 Google 网页搜索、Google 图片、Google 发现）。

　　最大片段：[数量]

　　您最多只能使用 [number] 个字符作为此搜索结果的文本摘要。（请注意，该 URL 可能会在搜索结果页面上显示为多个搜索结果。）这不会影响图像或视频预览。这适用于所有形式的搜索结果（例如 Google 网页搜索、Google 图片、Google 发现、Google 助理）。但是，如果发布者单独授予了内容使用权，则此限制不适用。例如，如果发布商以页内结构化数据的形式提供内容或与 Google 签订了许可协议，则此设置不会阻止这些更具体的许可用途。如果没有指定resolvable [number]，该命令将被忽略。

　　特殊价值：

　　示例：

　　最大图像预览：[设置]

　　设置该网页在搜索结果中预览图片的最大尺寸。

　　接受的设置值：

　　这适用于所有形式的搜索结果（例如 Google 网页搜索、Google 图片、Google 发现、Google 助理）。但是，如果发布者单独授予了内容使用权，则此限制不适用。例如，如果发布商以页内结构化数据的形式提供内容（例如 AMP 页面和文章的规范版本），或者与 Google 签订了许可协议，则此设置不会阻止这些更具体的允许用途。

　　如果发布商不希望 Google 在搜索结果页面或“探索”功能中显示其 AMP 页面和文章的规范版本时使用更大的缩略图，则应指定 max-image-preview 的值标准或无。

　　示例：

　　最大视频预览：[数量]

　　此页面上视频的视频摘要在搜索结果中不得超过 [number] 秒。

　　其他支持的值：

　　这适用于所有形式的搜索结果（例如 Google 网页搜索、Google 图片、Google 视频、Google 发现、Google 助理）。如果没有指定resolvable [number]，该命令将被忽略。

　　示例：

　　不翻译

　　不要在搜索结果中提供网页的翻译。

　　无图像索引

　　此页面上的图片将不会被编入索引。

　　unavailable_after：[日期/时间]

　　在指定的日期/时间之后，网页将不会显示在搜索结果中。日期/时间必须以广泛使用的格式指定，包括但不限于RFC 822、RFC 850 和ISO 8601。如果未指定有效的[日期/时间]，则该命令将被忽略。默认情况下，内容没有过期日期。

　　示例：

　　参考资料：

0

2021-07-06

网站内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

什么是抓取、收录网页抓取工具.txt文件介绍

0 个评论

发起人

AI时代内容工厂

什么是抓取、收录网页抓取工具.txt文件介绍

0 个评论

发起人

相关问题