SEO优化:英文索引库收录的注意事项有哪些?
优采云 发布时间: 2021-07-23 21:22SEO优化:英文索引库收录的注意事项有哪些?
爬行是指蜘蛛沿着页面上的链接发现新页面,然后“爬行”以获取新页面。爬行是指蜘蛛发现新页面后,像浏览器一样打开页面,并将页面的HTML代码保存到数据库中。这两个概念在英语中通常用 crawl 或 spider(这里是动词)来表达,具体指的是哪个要根据上下文来判断。
显然,爬行和爬行是交织在一起的。爬行是我们可以观察到的实际发生的过程。在原创日志中,对蜘蛛的爬行进行了完整的记录,例如:爬行的确切时间、状态码、爬取了哪个文件、爬取了多大的文件等等。蜘蛛对页面的抓取和浏览器对文件的读取完全一样。
爬行只是一个形象的比喻。实际上,没有蜘蛛在抓取文件时找到链接然后立即跟踪过去的过程。蜘蛛抓取文件并将其保存在数据库中。程序解析出文件中的链接,并将URL保存在页面地址数据库中。然后蜘蛛根据一定的规则从地址库中选择URL进行爬取。蜘蛛在访问页面时看到 URL 时实际上并不会爬过去。
索引是指对一个网址的信息进行排序,如去重、分词等,然后将该网址的信息存入数据库,称为索引库。真正用于搜索的是倒排索引,后面会详细讨论。需要注意的是,索引库中的URL信息不仅是构成页面内容及其特征(位置、格式等)的关键词,还有链接、更新等信息。英文索引的单词是index。
收录是SEO最关心、最常用的词。事实上,它也是四个概念中最不明确的。通过收录我们可以发现该页面被搜索引擎存储在索引数据库中。但是后面我们会看到,进入索引库的网址可能没有被抓取,这可能和SEO的直觉不一样。
当然,概念的准确把握不是为了文采,而是影响对很多SEO问题的理解和处理。以下是一些示例。
收录不全是什么原因?
如果页面不是收录,是SEO最头疼的问题之一。没有收录,就没有排名和流量。太多人在博客和论坛里问为什么页面不是收录,还给了域名,但这种问题无法回答,即使愿意花时间诊断,也无法回答(除非所有可能性都列出来了)原因等于没有回答),因为缺少一个关键信息:页面被抓取了吗?这只能通过查看原创日志才能知道。看网站查不到,查流量查不到。了解了前面的概念,就知道被抓到不一定是收录,不是收录也不一定就是没被抓到。
如果页面已经被抓取但没有被索引和收录,内容应该有问题(原创?采集?所谓的伪原创?敏感内容或产品?复制内容?)原因。 网站 结构应该没有大问题。搜索引擎看了内容觉得不适合收录。如果页面根本没有被抓取,你应该寻找网站和链接结构,对搜索引擎不友好的技术障碍,以及域名权重。