php抓取网页表格信息(Google为什么做网站时一定要注意搜索引擎友好(图))

优采云 发布时间: 2022-03-02 07:13

  php抓取网页表格信息(Google为什么做网站时一定要注意搜索引擎友好(图))

  虽然谷歌已经是爬取页面最多的搜索引擎,但仍然不满足,因为有很多页面和信息很难找到和爬取。这就是为什么在执行 网站 时对 SEO 友好很重要的原因。

  现在谷歌开始提供提交表单(form)来发现后续页面。本来想写详细说明的,但是看到写了幻灭,所以直接引用了主要内容如下。

  我们已经知道Googlebot除了文字、视频、音频、Flash等类型的内容外,还可以通过JS代码抓取链接。而在未来,Googlebot 也有望直接识别图片和视频中的文字。为了进一步抓取互联网,Google 宣布 Googlebot 已经能够通过提交表单抓取更多内容。

  据 Google 称,Googlebot 目前正在试验一小部分高质量的 网站 表单提交。当Googlebot在这些网站上找到HTML表格时(即检测到时),会自动从网站中选择一些词进入表格的文本框,然后选择不同的按钮,勾选选项和验证项目,然后提交表格。一旦 Googlebot 在提交表单后认为新内容看起来是合法、有趣和独特的,它可能会将内容抓取到 Google 的搜索结果索引数据库中。这意味着 Googlebot 现在知道如何通过提交表单来获取新内容。

  同时,谷歌还强调,如果在网站的robots.txt文件中禁止隐藏表单,并且表单提交后生成的链接预计不会被抓取,那么Googlebot不会爬行。此外,目前 Googlebot 仅提交 GET 类型的表单。例如,当表单需要用户个人信息(如密码、用户名、联系人等)时,Googlebot 会自动跳过这些表单。

  这种形式的抓取目前是一个小实验,谷歌表示不会对 网站 产生影响。既不会影响网站的PR值,也不会影响网站的正常爬取和排名。

  Matt Cutts 还写了一篇文章来说明这样做的好处。有很多网站主页只以表格的形式列出公司的子站,并没有以链接的形式列出子站。这种网站不能深入收录之前,因为谷歌不提交表单就找不到隐藏在表单后面的URL。

  这当然给一些网站的收录创造了机会,但是否也给一些公司网站带来了一定的安全风险?网站如果你不想被收录屏蔽,请使用robots.txt文件来屏蔽它。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线