搜索引擎优化pdf(Google搜索引擎如何处理PDF文件?文件会被转换并索引为HTML)
优采云 发布时间: 2022-03-03 07:15搜索引擎优化pdf(Google搜索引擎如何处理PDF文件?文件会被转换并索引为HTML)
PDF会在谷歌搜索结果中标上PDF标签,如下图:
那么 Google 搜索引擎是如何处理 PDF 文件的呢?
首先,将 PDF 文件转换并索引为 HTML(超文本标记语言)。
对于收录文本图像的 PDF,Google 使用光学字符识别 (OCR) 技术将文本图像转换为文本。
同时,PDF中的图片也会收录出现在图片搜索结果中。
如果您还有一个单独的网页,其中的内容与 PDF 内容重复,Google 会更喜欢为网页编制索引而不是 PDF 文档。
如果您的页面内容和 PDF 具有相同的内容,Google 会将页面视为重复集群的主要版本。这意味着将PDF中的内容合并到页面中,搜索结果中只显示页面,没有PDF。
(注意上面的区分,重复内容和内容相同的情况)
但是你要知道PDF对SEO不好,我们应该尽可能的在页面上展示内容!
这很容易理解。与页面相比,PDF 有一些缺点:
1、PDF本质上是一个静态文件,我们不经常更新,所以爬取的频率低;
2、PDF 文件不适合移动设备,因为它们的布局是固定的,导致在移动设备上显示效果不佳;
3、无法追踪数据,普通追踪器在网页上运行JavaScript,但无法处理PDF文档。
4、PDF 中的链接缺少 SEO 属性,例如:nofollow、UGC 和 Sponsored。
以上!