SEO优化：英文索引库收录的注意事项有哪些？

优采云发布时间: 2021-07-23 21:22

　　爬行是指蜘蛛沿着页面上的链接发现新页面，然后“爬行”以获取新页面。爬行是指蜘蛛发现新页面后，像浏览器一样打开页面，并将页面的HTML代码保存到数据库中。这两个概念在英语中通常用 crawl 或 spider（这里是动词）来表达，具体指的是哪个要根据上下文来判断。

　　显然，爬行和爬行是交织在一起的。爬行是我们可以观察到的实际发生的过程。在原创日志中，对蜘蛛的爬行进行了完整的记录，例如：爬行的确切时间、状态码、爬取了哪个文件、爬取了多大的文件等等。蜘蛛对页面的抓取和浏览器对文件的读取完全一样。

　　爬行只是一个形象的比喻。实际上，没有蜘蛛在抓取文件时找到链接然后立即跟踪过去的过程。蜘蛛抓取文件并将其保存在数据库中。程序解析出文件中的链接，并将URL保存在页面地址数据库中。然后蜘蛛根据一定的规则从地址库中选择URL进行爬取。蜘蛛在访问页面时看到 URL 时实际上并不会爬过去。

　　索引是指对一个网址的信息进行排序，如去重、分词等，然后将该网址的信息存入数据库，称为索引库。真正用于搜索的是倒排索引，后面会详细讨论。需要注意的是，索引库中的URL信息不仅是构成页面内容及其特征（位置、格式等）的关键词，还有链接、更新等信息。英文索引的单词是index。

　　收录是SEO最关心、最常用的词。事实上，它也是四个概念中最不明确的。通过收录我们可以发现该页面被搜索引擎存储在索引数据库中。但是后面我们会看到，进入索引库的网址可能没有被抓取，这可能和SEO的直觉不一样。

　　当然，概念的准确把握不是为了文采，而是影响对很多SEO问题的理解和处理。以下是一些示例。

　　收录不全是什么原因？

　　如果页面不是收录，是SEO最头疼的问题之一。没有收录，就没有排名和流量。太多人在博客和论坛里问为什么页面不是收录，还给了域名，但这种问题无法回答，即使愿意花时间诊断，也无法回答（除非所有可能性都列出来了）原因等于没有回答），因为缺少一个关键信息：页面被抓取了吗？这只能通过查看原创日志才能知道。看网站查不到，查流量查不到。了解了前面的概念，就知道被抓到不一定是收录，不是收录也不一定就是没被抓到。

　　如果页面已经被抓取但没有被索引和收录，内容应该有问题（原创？采集？所谓的伪原创？敏感内容或产品？复制内容？）原因。网站结构应该没有大问题。搜索引擎看了内容觉得不适合收录。如果页面根本没有被抓取，你应该寻找网站和链接结构，对搜索引擎不友好的技术障碍，以及域名权重。

0

2021-07-23

搜网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

SEO优化：英文索引库收录的注意事项有哪些？

0 个评论

发起人