抓取ajax动态网页java((二)如何掌握最低的最低可行知识)

优采云 发布时间: 2022-02-03 01:11

  抓取ajax动态网页java((二)如何掌握最低的最低可行知识)

  如果您的工作涉及某种程度的 SEO,您可能会越来越多地听到 Java 及其对爬网和索引的影响。坦率地说,百度蜘蛛在为此苦苦挣扎,许多 网站 使用现代 Java 来加载关键内容。正因为如此,我们需要具备这个话题才能有效地讨论它。分享此 文章 的目的是为您提供必要的最低可行知识。

  (一)相关域是否依赖客户端 Java 来加载/更改页面内容或链接?

  诊断涉及 Java 的任何问题的第一步是检查域是否使用它来加载可能影响 SEO(页面内容或链接)的关键内容。理想情况下,每当您获得新客户(在初始技术审查期间),或者每当您的客户重新设计/推出新功能 网站 时,都会发生这种情况。

  我们该如何做呢?

  询问客户

  问你应该接受!尽管如此,作为顾问,您可以做的最快/最简单的事情之一就是联系您的 POC(或帐户开发人员)并询问他们。毕竟,这些都是日复一日在 网站 工作的人!

  手动检查

  即使在拥有数百万页面的大型电子商务网站上,也往往只有几个重要的页面模板。以我的经验,手动检查最多只需要一个小时。您可以使用插件,从那里禁用 Java,并手动检查 网站 是否有重要模板(主页、类别页面、产品页面、博客文章 等)

  换句话说,本页第一个问题的答案是“是的,Java 用于加载 网站 的关键部分”。

  (二)如果是,百度蜘蛛能否正确查看Java加载的内容?

  如果您的客户在其 网站 的某些部分中依赖 Java(在我们的例子中是这样),那么我们的工作就是尝试复制百度实际查看页面的方式。我们想回答这个问题:“百度是否以我们想要的方式看到了页面/网站?”

  为了更准确地描述百度蜘蛛看到的内容,我们需要尝试模仿百度蜘蛛爬网的方式。

  (三)如果我们确定百度蜘蛛没有正确看到我们的内容怎么办?

  既然我们知道域使用 Java 加载关键内容,并且我们知道百度蜘蛛很可能没有看到该内容,那么最后一步就是向客户端推荐理想的解决方案。关键词:推荐,未实施。我们的工作是向我们的客户提出问题,解释为什么它很重要(以及可能的影响),并强调理想的解决方案。尝试为具有独特堆栈/资源/等的开发人员找出理想的解决方案根本不是我们的工作。

  概括

  冒着严重过度简化的风险,为了在 2018 年开始使用 Java 和 SEO,您需要做以下事情:

  找出客户端的域名何时/何地使用客户端 Java 加载页面内容或链接。询问开发商。关闭 Java 并通过页面模板进行一些手动测试。使用 Java 爬虫进行爬取。检查百度蜘蛛是否按照我们预期的方式查看内容。百度的手机友谊检查器。执行 网站:在网络上搜索可见内容。使用 Java 爬虫进行爬取。给客户一个理想的建议。服务器端渲染。混合解决方案(同构)。不是 AJAX 爬取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线