话题：抓取动态网页 - 自动文章采集器-优采云官网

抓取动态网页(如何才能让搜索引擎对动态页面进行抓取？说说)

网站优化 • 优采云发表了文章 • 0 个评论 • 88 次浏览 • 2021-10-12 18:27 • 来自相关话题

　　抓取动态网页(如何才能让搜索引擎对动态页面进行抓取？说说)
　　我们在做搜索引擎推广的时候，经常会遇到一个问题，就是动态页面不能被搜索爬取，而搜索引擎可以爬取网站的动态页面。相信很多站长还是知道他的效果更好的。对于图片和文字，搜索引擎如何抓取动态页面？易知今天跟大家聊一聊如何通过SEO优化动态页面：
　　
　　首先网站必须建立一个静态入口
　　在“动静结合，静制动”的原则指导下，可以对网站做一些修改，尽可能增加动态网页在搜索引擎中的可见度。将动态网页编译成静态首页或网站地图的链接，以静态目录的形式呈现动态页面等SEO优化方法。或者为动态页面创建一个专门的静态入口页面，链接到动态页面，将静态入口页面提交给搜索引擎。
　　
　　二、登录搜索引擎
　　对于连接数据库的内容管理系统发布的整个网站动态网站，最直接的优化SEO的方式就是付费登录。建议将动态网页直接提交到搜索引擎目录或做关键词广告，保证被搜索引擎网站收录。
　　
　　最后根据搜索引擎支持改进
　　搜索引擎一直在改进对动态页面的支持，但是这些蜘蛛在抓取动态页面时，为了避免搜索机器人的陷阱，搜索引擎只抓取静态页面链接的动态页面，动态页面链接的动态页面。不再抓取页面，这意味着不会对动态页面中的链接进行深入访问。
　　PS：动态页面和很多站长关注的富图文基本一致。
　　更多微信亿交流：查看全部

　　抓取动态网页(如何才能让搜索引擎对动态页面进行抓取？说说)
　　我们在做搜索引擎推广的时候，经常会遇到一个问题，就是动态页面不能被搜索爬取，而搜索引擎可以爬取网站的动态页面。相信很多站长还是知道他的效果更好的。对于图片和文字，搜索引擎如何抓取动态页面？易知今天跟大家聊一聊如何通过SEO优化动态页面：
　　

　　首先网站必须建立一个静态入口
　　在“动静结合，静制动”的原则指导下，可以对网站做一些修改，尽可能增加动态网页在搜索引擎中的可见度。将动态网页编译成静态首页或网站地图的链接，以静态目录的形式呈现动态页面等SEO优化方法。或者为动态页面创建一个专门的静态入口页面，链接到动态页面，将静态入口页面提交给搜索引擎。
　　

　　二、登录搜索引擎
　　对于连接数据库的内容管理系统发布的整个网站动态网站，最直接的优化SEO的方式就是付费登录。建议将动态网页直接提交到搜索引擎目录或做关键词广告，保证被搜索引擎网站收录。
　　

　　最后根据搜索引擎支持改进
　　搜索引擎一直在改进对动态页面的支持，但是这些蜘蛛在抓取动态页面时，为了避免搜索机器人的陷阱，搜索引擎只抓取静态页面链接的动态页面，动态页面链接的动态页面。不再抓取页面，这意味着不会对动态页面中的链接进行深入访问。
　　PS：动态页面和很多站长关注的富图文基本一致。
　　更多微信亿交流：

抓取动态网页(搜索引擎蜘蛛对静态页面和动态页面是同等对待的吗？)

网站优化 • 优采云发表了文章 • 0 个评论 • 130 次浏览 • 2021-10-12 18:27 • 来自相关话题

　　抓取动态网页(搜索引擎蜘蛛对静态页面和动态页面是同等对待的吗？)
　　问题：哪个蜘蛛抓取静态或动态页面的速度更快？
　　答：理论上，搜索引擎蜘蛛对静态页面和动态页面一视同仁，不会先爬哪个页面，但是这里有个前提，就是动态页面必须被蜘蛛正常识别，如果动态页面很多pages 复杂参数，可能会影响蜘蛛爬行。
　　其实搜索引擎发展到今天，已经能够很好的解决抓取问题，无论是静态页面还是动态页面都可以抓取。但是从用户体验的角度来看，最好将 URL 设置为静态或伪静态，因为合理的 URL 可以节省用户的判断成本，这也有助于网站优化。
　　当然，不要走进死胡同，认为搜索引擎会歧视动态链接。这是错误的。
　　在页面质量和关键词排名方面，静态页面和动态页面没有严格的区别，都可以正常参与排名。但是这里还有一个问题需要注意，就是页面的动态更新，无论页面的URL是什么形式的，都要保证页面是动态更新的。
　　比如文章页面通常会调用相关的文章，这个相关的文章调用应该是动态的，并且文章更新在同一个标签下，另一个文章@ >页面也需要同步更新。这样做的好处是增加了页面的更新频率，有利于页面本身质量的提升。
　　关于页面ULR和蜘蛛爬行的问题，牧峰SEO简单说了这么多。总之，一般情况下，无论是静态页面还是动态页面，蜘蛛都会爬行。但是在设置网址的时候有一个原则要遵循，就是网址要尽量简单易懂，不要有复杂的符号！查看全部

　　抓取动态网页(搜索引擎蜘蛛对静态页面和动态页面是同等对待的吗？)
　　问题：哪个蜘蛛抓取静态或动态页面的速度更快？
　　答：理论上，搜索引擎蜘蛛对静态页面和动态页面一视同仁，不会先爬哪个页面，但是这里有个前提，就是动态页面必须被蜘蛛正常识别，如果动态页面很多pages 复杂参数，可能会影响蜘蛛爬行。
　　其实搜索引擎发展到今天，已经能够很好的解决抓取问题，无论是静态页面还是动态页面都可以抓取。但是从用户体验的角度来看，最好将 URL 设置为静态或伪静态，因为合理的 URL 可以节省用户的判断成本，这也有助于网站优化。
　　当然，不要走进死胡同，认为搜索引擎会歧视动态链接。这是错误的。
　　在页面质量和关键词排名方面，静态页面和动态页面没有严格的区别，都可以正常参与排名。但是这里还有一个问题需要注意，就是页面的动态更新，无论页面的URL是什么形式的，都要保证页面是动态更新的。
　　比如文章页面通常会调用相关的文章，这个相关的文章调用应该是动态的，并且文章更新在同一个标签下，另一个文章@ >页面也需要同步更新。这样做的好处是增加了页面的更新频率，有利于页面本身质量的提升。
　　关于页面ULR和蜘蛛爬行的问题，牧峰SEO简单说了这么多。总之，一般情况下，无论是静态页面还是动态页面，蜘蛛都会爬行。但是在设置网址的时候有一个原则要遵循，就是网址要尽量简单易懂，不要有复杂的符号！

抓取动态网页(如何判断一个前端渲染的页面是否为抓取动态的方式)

网站优化 • 优采云发表了文章 • 0 个评论 • 102 次浏览 • 2021-10-10 10:28 • 来自相关话题

　　抓取动态网页(如何判断一个前端渲染的页面是否为抓取动态的方式)
　　抓取前端渲染的页面
　　随着AJAX技术的不断普及和AngularJS等单页应用框架的出现，越来越多的页面由js渲染。对于爬虫来说，这种页面比较烦人：只提取HTML内容往往得不到有效信息。那么如何处理这种页面呢？一般来说，有两种方法：
　　在爬虫阶段，爬虫内置浏览器内核，执行js渲染页面后，进行爬虫。这方面对应的工具有Selenium、HtmlUnit或PhantomJs。但是，这些工具存在一定的效率问题，同时也不太稳定。优点是写入规则与静态页面相同。因为js渲染页面的数据也是从后端获取的，而且基本都是通过AJAX获取的，所以分析AJAX请求，找到对应数据的请求也是一种可行的方式。并且与页面样式相比，这个界面不太可能发生变化。缺点是找到这个请求并模拟它是一个比较困难的过程，需要比较多的分析经验。
　　比较两种方法，我的观点是，对于一次性或小规模的需求，第一种方法省时省力。但对于长期、大规模的需求，第二种更可靠。对于某些站点，甚至还有一些 js 混淆技术。这时候第一种方法基本上是万能的，第二种方法会很复杂。
　　对于第一种方法，webmagic-selenium 就是这样一种尝试。它定义了一个Downloader，它在下载页面时使用浏览器内核进行渲染。selenium 的配置比较复杂，和平台和版本有关，所以没有稳定的解决方案。有兴趣可以看我的博客：使用Selenium爬取动态加载的页面
　　这里我主要介绍第二种方法。希望最后你会发现：前端渲染页面的原创解析并没有那么复杂。这里我们以AngularJS中文社区为例。
　　如何判断前端渲染
　　判断页面是否被js渲染的方法比较简单。可以直接在浏览器中查看源码（Windows下Ctrl+U，Mac下command+alt+u）。如果找不到有效信息，基本上可以为js渲染。
　　
　　
　　在这个例子中，如果源代码中找不到页面上的标题“优府计算机网络-前端攻城引擎”，可以断定是js渲染，而这个数据是通过AJAX获取的。
　　分析请求
　　现在我们进入最难的部分：找到这个数据请求。这一步可以帮助我们的工具，主要是在浏览器中查看网络请求的开发者工具。
　　以Chome为例，我们打开“开发者工具”（Windows下F12，Mac下command+alt+i），然后刷新页面（也可能是下拉页面，总之你所有的操作认为可能会触发新的数据），然后记得保持场景并一一分析请求！
　　这一步需要一点耐心，但也不是不守规矩。首先可以帮助我们的是上面的分类过滤器（All、Document 等选项）。如果是普通的AJAX，会显示在XHR标签下，JSONP请求会在Scripts标签下。这是两种常见的数据类型。
　　然后就可以根据数据的大小来判断了。一般来说，较大的结果更有可能是返回数据的接口。剩下的就基本靠经验了。例如，这里的“latest?p=1&s=20”乍一看很可疑……
　　
　　对于可疑地址，此时可以查看响应正文的内容。此处的开发人员工具中不清楚。我们把URL复制到地址栏，再次请求（如果Chrome建议安装jsonviewer，查看AJAX结果非常方便）。看看结果，似乎找到了我们想要的东西。
　　
　　同样的，我们到了帖子详情页，找到了具体内容的请求：。
　　编程
　　回顾之前的列表+目标页面的例子，我们会发现我们这次的需求和之前的差不多，只是换成了AJAX-AJAX风格的列表，AJAX风格的数据，返回的数据变成了JSON。那么，我们还是可以用最后一种方法，分成两页来写：
　　数据表
　　在这个列表页面上，我们需要找到有效的信息来帮助我们构建目标 AJAX URL。这里我们看到这个_id应该是我们想要的帖子的id，帖子详情请求是由一些固定的URL加上这个id组成的。所以在这一步，我们自己手动构造了URL，加入到要爬取的队列中。这里我们使用 JsonPath，一种选择语言来选择数据（webmagic-extension 包提供了 JsonPathSelector 来支持它）。
　　 if (page.getUrl().regex(LIST_URL).match()) {
//这里我们使用JSONPATH这种选择语言来选择数据
List ids = new JsonPathSelector("$.data[*]._id").selectList(page.getRawText());
if (CollectionUtils.isNotEmpty(ids)) {
for (String id : ids) {
page.addTargetRequest("http://angularjs.cn/api/article/"+id);
}
}
}
　　目标数据
　　有了URL，解析目标数据其实很简单。因为JSON数据是完全结构化的，省去了我们分析页面和编写XPath的过程。这里我们仍然使用 JsonPath 来获取标题和内容。
　　 page.putField("title", new JsonPathSelector("$.data.title").select(page.getRawText()));
page.putField("content", new JsonPathSelector("$.data.content").select(page.getRawText()));
　　本示例的完整代码请参见AngularJSProcessor.java
　　总结
　　在这个例子中，我们分析了一个比较经典的动态页面的爬取过程。其实动态页面爬取最大的区别就是增加了链接发现的难度。让我们比较一下两种开发模式：
　　后台渲染页面
　　下载辅助页面 => 发现链接 => 下载并分析目标 HTML
　　前端渲染页面
　　发现辅助数据 => 构建链接 => 下载并分析目标 AJAX
　　对于不同的站点，这个辅助数据可能是预先在页面的HTML中输出，也可能是通过AJAX请求，甚至是多个数据请求的过程，但这种模式基本是固定的。
　　但是这些数据请求的分析还是比页面分析复杂很多，所以这其实就是动态页面爬取的难点。
　　本节的例子希望实现的是提供一个可以遵循的模式，供此类爬虫在分析请求后的编写，即发现辅助数据=>构建链接=>下载并分析目标AJAX模型。
　　PS：
　　WebMagic 0.5.0 会给链 API 添加 Json 支持，你可以使用：
　　page.getJson().jsonPath("$.name").get();
　　这种方式来解析AJAX请求。
　　还支持
　　page.getJson().removePadding("callback").jsonPath("$.name").get();
　　这种方式来解析 JSONP 请求。查看全部

　　抓取动态网页(如何判断一个前端渲染的页面是否为抓取动态的方式)
　　抓取前端渲染的页面
　　随着AJAX技术的不断普及和AngularJS等单页应用框架的出现，越来越多的页面由js渲染。对于爬虫来说，这种页面比较烦人：只提取HTML内容往往得不到有效信息。那么如何处理这种页面呢？一般来说，有两种方法：
　　在爬虫阶段，爬虫内置浏览器内核，执行js渲染页面后，进行爬虫。这方面对应的工具有Selenium、HtmlUnit或PhantomJs。但是，这些工具存在一定的效率问题，同时也不太稳定。优点是写入规则与静态页面相同。因为js渲染页面的数据也是从后端获取的，而且基本都是通过AJAX获取的，所以分析AJAX请求，找到对应数据的请求也是一种可行的方式。并且与页面样式相比，这个界面不太可能发生变化。缺点是找到这个请求并模拟它是一个比较困难的过程，需要比较多的分析经验。
　　比较两种方法，我的观点是，对于一次性或小规模的需求，第一种方法省时省力。但对于长期、大规模的需求，第二种更可靠。对于某些站点，甚至还有一些 js 混淆技术。这时候第一种方法基本上是万能的，第二种方法会很复杂。
　　对于第一种方法，webmagic-selenium 就是这样一种尝试。它定义了一个Downloader，它在下载页面时使用浏览器内核进行渲染。selenium 的配置比较复杂，和平台和版本有关，所以没有稳定的解决方案。有兴趣可以看我的博客：使用Selenium爬取动态加载的页面
　　这里我主要介绍第二种方法。希望最后你会发现：前端渲染页面的原创解析并没有那么复杂。这里我们以AngularJS中文社区为例。
　　如何判断前端渲染
　　判断页面是否被js渲染的方法比较简单。可以直接在浏览器中查看源码（Windows下Ctrl+U，Mac下command+alt+u）。如果找不到有效信息，基本上可以为js渲染。
　　

　　在这个例子中，如果源代码中找不到页面上的标题“优府计算机网络-前端攻城引擎”，可以断定是js渲染，而这个数据是通过AJAX获取的。
　　分析请求
　　现在我们进入最难的部分：找到这个数据请求。这一步可以帮助我们的工具，主要是在浏览器中查看网络请求的开发者工具。
　　以Chome为例，我们打开“开发者工具”（Windows下F12，Mac下command+alt+i），然后刷新页面（也可能是下拉页面，总之你所有的操作认为可能会触发新的数据），然后记得保持场景并一一分析请求！
　　这一步需要一点耐心，但也不是不守规矩。首先可以帮助我们的是上面的分类过滤器（All、Document 等选项）。如果是普通的AJAX，会显示在XHR标签下，JSONP请求会在Scripts标签下。这是两种常见的数据类型。
　　然后就可以根据数据的大小来判断了。一般来说，较大的结果更有可能是返回数据的接口。剩下的就基本靠经验了。例如，这里的“latest?p=1&s=20”乍一看很可疑……
　　

　　对于可疑地址，此时可以查看响应正文的内容。此处的开发人员工具中不清楚。我们把URL复制到地址栏，再次请求（如果Chrome建议安装jsonviewer，查看AJAX结果非常方便）。看看结果，似乎找到了我们想要的东西。
　　

　　同样的，我们到了帖子详情页，找到了具体内容的请求：。
　　编程
　　回顾之前的列表+目标页面的例子，我们会发现我们这次的需求和之前的差不多，只是换成了AJAX-AJAX风格的列表，AJAX风格的数据，返回的数据变成了JSON。那么，我们还是可以用最后一种方法，分成两页来写：
　　数据表
　　在这个列表页面上，我们需要找到有效的信息来帮助我们构建目标 AJAX URL。这里我们看到这个_id应该是我们想要的帖子的id，帖子详情请求是由一些固定的URL加上这个id组成的。所以在这一步，我们自己手动构造了URL，加入到要爬取的队列中。这里我们使用 JsonPath，一种选择语言来选择数据（webmagic-extension 包提供了 JsonPathSelector 来支持它）。
　　 if (page.getUrl().regex(LIST_URL).match()) {
//这里我们使用JSONPATH这种选择语言来选择数据
List ids = new JsonPathSelector("$.data[*]._id").selectList(page.getRawText());
if (CollectionUtils.isNotEmpty(ids)) {
for (String id : ids) {
page.addTargetRequest("http://angularjs.cn/api/article/"+id);
}
}
}
　　目标数据
　　有了URL，解析目标数据其实很简单。因为JSON数据是完全结构化的，省去了我们分析页面和编写XPath的过程。这里我们仍然使用 JsonPath 来获取标题和内容。
　　 page.putField("title", new JsonPathSelector("$.data.title").select(page.getRawText()));
page.putField("content", new JsonPathSelector("$.data.content").select(page.getRawText()));
　　本示例的完整代码请参见AngularJSProcessor.java
　　总结
　　在这个例子中，我们分析了一个比较经典的动态页面的爬取过程。其实动态页面爬取最大的区别就是增加了链接发现的难度。让我们比较一下两种开发模式：
　　后台渲染页面
　　下载辅助页面 => 发现链接 => 下载并分析目标 HTML
　　前端渲染页面
　　发现辅助数据 => 构建链接 => 下载并分析目标 AJAX
　　对于不同的站点，这个辅助数据可能是预先在页面的HTML中输出，也可能是通过AJAX请求，甚至是多个数据请求的过程，但这种模式基本是固定的。
　　但是这些数据请求的分析还是比页面分析复杂很多，所以这其实就是动态页面爬取的难点。
　　本节的例子希望实现的是提供一个可以遵循的模式，供此类爬虫在分析请求后的编写，即发现辅助数据=>构建链接=>下载并分析目标AJAX模型。
　　PS：
　　WebMagic 0.5.0 会给链 API 添加 Json 支持，你可以使用：
　　page.getJson().jsonPath("$.name").get();
　　这种方式来解析AJAX请求。
　　还支持
　　page.getJson().removePadding("callback").jsonPath("$.name").get();
　　这种方式来解析 JSONP 请求。

抓取动态网页( 1.什么是动态页面2.什么?())

网站优化 • 优采云发表了文章 • 0 个评论 • 83 次浏览 • 2021-10-10 04:20 • 来自相关话题

　　抓取动态网页(
1.什么是动态页面2.什么?())
　　使用 selenium 抓取动态页面
　　1. 什么是动态页面2. 什么是硒
　　百度百科对硒的定义：
　　Selenium [1] 是一种用于 Web 应用程序测试的工具。Selenium 测试直接在浏览器中运行，就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11）, Mozilla Firefox, Safari, Google Chrome, Opera等。本工具的主要功能包括：测试与浏览器的兼容性-测试您的应用程序可以在不同的浏览器和操作系统上运行良好测试系统功能-创建回归测试以验证软件功能和用户需求支持自动记录动作和自动生成.Net、Java、Perl等多种语言的测试脚本。
　　简单理解一点，selenium是一个可以模拟浏览器的工具（框架）。通过使用 selenium 的 API，您可以模拟您所想的操作。
　　在爬虫中使用selenium是为了解决js的渲染问题。
　　3. 使用selenium 3.1 使用selenium的准备工作以Maven项目为例，在pom.xml文件中添加依赖
　　
org.seleniumhq.selenium
selenium-java
3.141.59

　　您还可以添加 => selenium 的其他版本依赖项。
　　2.下载安装chromedriver，具体操作看这里，如果安装成功，可以写示例代码。
　　3.2 示例代码
　　编写主程序并执行示例代码：
　　public static void main(String[] args) {
//配置chromedriver webdriver.chrome.driver
System.getProperties().setProperty("webdriver.chrome.driver", "C:\\Users\\AIR\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe");
//创建chromedriver对象
WebDriver webDriver = new ChromeDriver();
//请求要爬取的网页
webDriver.get("https://search.51job.com/list/180200,000000,0000,32,9,99,%25E8%25BD%25AF%25E4%25BB%25B6%25E5%25B7%25A5%25E7%25A8%258B%25E5%25B8%2588,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=");
//取html中的内容
WebElement webElement = webDriver.findElement(By.xpath("/html"));
//打印
System.out.println(webElement.getAttribute("outerHTML"));
webDriver.close();
}
　　4. 发生异常
　　无法创建 ChromeDriver，错误消息：
　　java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkState(ZLjava/lang/String;Ljava/lang/Object;Ljava/lang/Object;Ljava/lang/Object;)V
　　这篇文章解释了异常的两个原因。我排除了第一个。
　　第二个原因是Bloom filter的jar包冲突引起的。可以通过IDEA 2019的新特性查看jar包的依赖树，红线是冲突的jar包。如何查看依赖树。
　　我的解决方案：
　　首先更新最新版的布隆过滤器jar包：
　　
com.google.guava
guava
29.0-jre
　　然后把最新版本的selenium更新为3.141.59（之前是2.32.0）。
　　
org.seleniumhq.selenium
selenium-java
3.141.59
　　最后，程序运行成功，解析js渲染的页面，并在控制台打印结果。查看全部

　　抓取动态网页(
1.什么是动态页面2.什么?())
　　使用 selenium 抓取动态页面
　　1. 什么是动态页面2. 什么是硒
　　百度百科对硒的定义：
　　Selenium [1] 是一种用于 Web 应用程序测试的工具。Selenium 测试直接在浏览器中运行，就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11）, Mozilla Firefox, Safari, Google Chrome, Opera等。本工具的主要功能包括：测试与浏览器的兼容性-测试您的应用程序可以在不同的浏览器和操作系统上运行良好测试系统功能-创建回归测试以验证软件功能和用户需求支持自动记录动作和自动生成.Net、Java、Perl等多种语言的测试脚本。
　　简单理解一点，selenium是一个可以模拟浏览器的工具（框架）。通过使用 selenium 的 API，您可以模拟您所想的操作。
　　在爬虫中使用selenium是为了解决js的渲染问题。
　　3. 使用selenium 3.1 使用selenium的准备工作以Maven项目为例，在pom.xml文件中添加依赖
　　
org.seleniumhq.selenium
selenium-java
3.141.59

　　您还可以添加 => selenium 的其他版本依赖项。
　　2.下载安装chromedriver，具体操作看这里，如果安装成功，可以写示例代码。
　　3.2 示例代码
　　编写主程序并执行示例代码：
　　public static void main(String[] args) {
//配置chromedriver webdriver.chrome.driver
System.getProperties().setProperty("webdriver.chrome.driver", "C:\\Users\\AIR\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe");
//创建chromedriver对象
WebDriver webDriver = new ChromeDriver();
//请求要爬取的网页
webDriver.get("https://search.51job.com/list/180200,000000,0000,32,9,99,%25E8%25BD%25AF%25E4%25BB%25B6%25E5%25B7%25A5%25E7%25A8%258B%25E5%25B8%2588,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=");
//取html中的内容
WebElement webElement = webDriver.findElement(By.xpath("/html"));
//打印
System.out.println(webElement.getAttribute("outerHTML"));
webDriver.close();
}
　　4. 发生异常
　　无法创建 ChromeDriver，错误消息：
　　java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkState(ZLjava/lang/String;Ljava/lang/Object;Ljava/lang/Object;Ljava/lang/Object;)V
　　这篇文章解释了异常的两个原因。我排除了第一个。
　　第二个原因是Bloom filter的jar包冲突引起的。可以通过IDEA 2019的新特性查看jar包的依赖树，红线是冲突的jar包。如何查看依赖树。
　　我的解决方案：
　　首先更新最新版的布隆过滤器jar包：
　　
com.google.guava
guava
29.0-jre
　　然后把最新版本的selenium更新为3.141.59（之前是2.32.0）。
　　
org.seleniumhq.selenium
selenium-java
3.141.59
　　最后，程序运行成功，解析js渲染的页面，并在控制台打印结果。

抓取动态网页(如何将你的动态网页静态化？网页的特点)

网站优化 • 优采云发表了文章 • 0 个评论 • 82 次浏览 • 2021-10-09 16:48 • 来自相关话题

　　抓取动态网页(如何将你的动态网页静态化？网页的特点)
　　技术人员知道，无论是网页上的各种动画、滚动的字母、Flash等“动态效果”，都与动态网页无关。我们所说的动态就是网站技术，它利用动态网站技术生成的网页称为动态网页。通常，网页是从网站浏览者的角度来看的。静态网页和动态网页都可以显示最基本的信息，可以满足网民查看新闻的需求，但两者之间，无论是从开发还是管理、管理、维护上都存在差异。
　　现在很多朋友都因为百度不是收录网站而苦恼。前期的动态效果能不能做成静态的？其实不用这么麻烦，只要找到合适的方法，就可以让百度收录你的网站，还有更多的文章。我目前正在工作，并在网站建设/营销行业工作了 12 年。所以来到这家公司后，我不仅为清华同方集团、联想集团等多家知名企业做了网站，还学到了很多知识。,
　　现在我将向您解释如何使您的动态网页静态化。
　　一般来说，动态网页的特点主要包括以下几个特点：
　　1.动态网页基于数据库技术，可以大大减少网站维护的工作量；
　　2.网站采用动态网页技术可以实现更多功能，如用户注册、用户登录、在线调查、用户管理、订单管理等；
　　3.动态网页实际上并不是独立存在于服务器上的网页文件。服务器只有在用户请求时才返回完整的网页；
　　但是对于搜索引擎来说，动态网页带来了很大的挑战。搜索引擎的爬虫程序在服务器内存中爬取，容易进入动态网页链接死循环，导致无法正常遍历所有网页，严重影响网站收录数量。同时，在抓取的网页中会产生大量的重复页面。从搜索引擎的角度来看，内容相同但网址不同的网页本身就是一种欺骗排名的行为，导致对网站的不信任。所以对于搜索引擎来说，静态网页比动态网页更容易抓取。
　　如果你还在改变，因为你的网站是动态的，不容易被搜索引擎抓取，那我给你一个方法，1.通过程序的改造是网站所有动态页面是静态词。2.通过程序修改生成实时更新的伪静态网页。这些都可以由技术人员完成。对于不熟悉编程技术的读者，可以选择本书推荐的带有静态词的cms系统。
　　希望这篇文章能帮到大家。查看全部

　　抓取动态网页(如何将你的动态网页静态化？网页的特点)
　　技术人员知道，无论是网页上的各种动画、滚动的字母、Flash等“动态效果”，都与动态网页无关。我们所说的动态就是网站技术，它利用动态网站技术生成的网页称为动态网页。通常，网页是从网站浏览者的角度来看的。静态网页和动态网页都可以显示最基本的信息，可以满足网民查看新闻的需求，但两者之间，无论是从开发还是管理、管理、维护上都存在差异。
　　现在很多朋友都因为百度不是收录网站而苦恼。前期的动态效果能不能做成静态的？其实不用这么麻烦，只要找到合适的方法，就可以让百度收录你的网站，还有更多的文章。我目前正在工作，并在网站建设/营销行业工作了 12 年。所以来到这家公司后，我不仅为清华同方集团、联想集团等多家知名企业做了网站，还学到了很多知识。,
　　现在我将向您解释如何使您的动态网页静态化。
　　一般来说，动态网页的特点主要包括以下几个特点：
　　1.动态网页基于数据库技术，可以大大减少网站维护的工作量；
　　2.网站采用动态网页技术可以实现更多功能，如用户注册、用户登录、在线调查、用户管理、订单管理等；
　　3.动态网页实际上并不是独立存在于服务器上的网页文件。服务器只有在用户请求时才返回完整的网页；
　　但是对于搜索引擎来说，动态网页带来了很大的挑战。搜索引擎的爬虫程序在服务器内存中爬取，容易进入动态网页链接死循环，导致无法正常遍历所有网页，严重影响网站收录数量。同时，在抓取的网页中会产生大量的重复页面。从搜索引擎的角度来看，内容相同但网址不同的网页本身就是一种欺骗排名的行为，导致对网站的不信任。所以对于搜索引擎来说，静态网页比动态网页更容易抓取。
　　如果你还在改变，因为你的网站是动态的，不容易被搜索引擎抓取，那我给你一个方法，1.通过程序的改造是网站所有动态页面是静态词。2.通过程序修改生成实时更新的伪静态网页。这些都可以由技术人员完成。对于不熟悉编程技术的读者，可以选择本书推荐的带有静态词的cms系统。
　　希望这篇文章能帮到大家。

抓取动态网页( 烯牛数据加密不好暨自动化测试中无头谷歌浏览器设置代理)

网站优化 • 优采云发表了文章 • 0 个评论 • 97 次浏览 • 2021-10-09 16:40 • 来自相关话题

　　抓取动态网页(
烯牛数据加密不好暨自动化测试中无头谷歌浏览器设置代理)
　　Python爬虫：Selenium和Chrome无头浏览器用牛数据爬取动态网页
　　
　　彭诗雨发表于 2021/08/13 23:49:58 2021/08/13
　　【摘要】牛的数据地址：打开页面，可以正常看到内容，查看源码发现页面没有出现我们需要的内容，说明这是异步加载的内容。数据抓取方式一：使用requests或者scrapy，无法获取页面数据，api数据加密不好。处理方法二：使用PhantomJS，经过多次尝试，仍然无法得到...
　　数据地址：
　　打开页面，可以正常看到内容，查看源码发现页面没有显示我们需要的内容，说明这是异步加载的内容。
　　数据抓取
　　方式一：
　　使用requests或者scrapy，无法获取页面数据，api数据加密不好处理
　　方式二：
　　使用PhantomJS，经过多次尝试，仍然无法获取数据，即使我等待了很长时间。
　　方式3：
　　使用splash，方法可以参考：Python爬虫：splash安装及简单示例
　　方式四：
　　使用 Chrome，headless 或 headless，这个例子使用了一个 headless 浏览器
　　代码
　　
from selenium import webdriver
# 创建chrome参数对象
options = webdriver.ChromeOptions()
# 把chrome设置成无界面模式，不论windows还是linux都可以，自动适配对应参数
options.add_argument('headless')
# 创建chrome无界面对象
driver = webdriver.Chrome(chrome_options=options)
# 访问烯牛数据
url = "http://www.xiniudata.com/proje ... ot%3B
driver.get(url)
# 等待，让js有时间渲染
driver.implicitly_wait(3)
#打印内容
# print(driver.page_source)
# 解析内容
print(driver.find_element_by_css_selector(".table-body").text)
# 关闭窗口和浏览器
driver.close()
driver.quit()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

　　对于js渲染的页面，关键是浏览器在返回内容之前会等待一段时间，给js一些时间去渲染，否则渲染的数据将不可用
　　参考
　　Chrome -selenium webdriver 的无头设置代理和自动化测试中的无头谷歌浏览器设置代理查看全部

　　抓取动态网页(
烯牛数据加密不好暨自动化测试中无头谷歌浏览器设置代理)
　　Python爬虫：Selenium和Chrome无头浏览器用牛数据爬取动态网页
　　

　　彭诗雨发表于 2021/08/13 23:49:58 2021/08/13
　　【摘要】牛的数据地址：打开页面，可以正常看到内容，查看源码发现页面没有出现我们需要的内容，说明这是异步加载的内容。数据抓取方式一：使用requests或者scrapy，无法获取页面数据，api数据加密不好。处理方法二：使用PhantomJS，经过多次尝试，仍然无法得到...
　　数据地址：
　　打开页面，可以正常看到内容，查看源码发现页面没有显示我们需要的内容，说明这是异步加载的内容。
　　数据抓取
　　方式一：
　　使用requests或者scrapy，无法获取页面数据，api数据加密不好处理
　　方式二：
　　使用PhantomJS，经过多次尝试，仍然无法获取数据，即使我等待了很长时间。
　　方式3：
　　使用splash，方法可以参考：Python爬虫：splash安装及简单示例
　　方式四：
　　使用 Chrome，headless 或 headless，这个例子使用了一个 headless 浏览器
　　代码
　　
from selenium import webdriver
# 创建chrome参数对象
options = webdriver.ChromeOptions()
# 把chrome设置成无界面模式，不论windows还是linux都可以，自动适配对应参数
options.add_argument('headless')
# 创建chrome无界面对象
driver = webdriver.Chrome(chrome_options=options)
# 访问烯牛数据
url = "http://www.xiniudata.com/proje ... ot%3B
driver.get(url)
# 等待，让js有时间渲染
driver.implicitly_wait(3)
#打印内容
# print(driver.page_source)
# 解析内容
print(driver.find_element_by_css_selector(".table-body").text)
# 关闭窗口和浏览器
driver.close()
driver.quit()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

　　对于js渲染的页面，关键是浏览器在返回内容之前会等待一段时间，给js一些时间去渲染，否则渲染的数据将不可用
　　参考
　　Chrome -selenium webdriver 的无头设置代理和自动化测试中的无头谷歌浏览器设置代理

抓取动态网页(如何禁止搜索引擎抓取我们网站的动态网址(图))

网站优化 • 优采云发表了文章 • 0 个评论 • 79 次浏览 • 2021-10-09 16:39 • 来自相关话题

　　抓取动态网页(如何禁止搜索引擎抓取我们网站的动态网址(图))
　　所谓动态网址是指网址包括什么？, & 等字符网址，如news.php?lang=cn&class=1&id=2。我们开启了网站的伪静态后，对于网站的SEO来说，有必要避免搜索引擎爬取我们的动态网址网站。
　　你为什么要这样做？因为搜索引擎会在两次获取同一个页面但最终确定同一个页面后触发网站。具体处罚不明确。总之，不利于网站的整个SEO。那么如何防止搜索引擎抓取我们的动态网址网站呢？
　　这个问题可以通过robots.txt文件解决，具体操作请看下面。
　　我们知道动态页面有一个共同的特点，就是会有一个“？” 链接中的问号符号，因此我们可以在robots.txt文件中写入以下规则：
　　用户代理： *
　　不允许： /*？*
　　这将禁止搜索引擎抓取网站的整个动态链接。另外，如果我们只想让搜索引擎抓取特定类型的文件，比如html格式的静态页面，我们可以在robots.txt中加入如下规则：
　　用户代理： *
　　允许：.html$
　　不允许： /
　　另外，记得把你写的robots.txt文件放在你的网站的根目录下，否则是不行的。此外，还有一个简单的快捷方式来编写规则。登录google网站管理员工具，在里面写规则，生成robots.txt文件即可。查看全部

　　抓取动态网页(如何禁止搜索引擎抓取我们网站的动态网址(图))
　　所谓动态网址是指网址包括什么？, & 等字符网址，如news.php?lang=cn&class=1&id=2。我们开启了网站的伪静态后，对于网站的SEO来说，有必要避免搜索引擎爬取我们的动态网址网站。
　　你为什么要这样做？因为搜索引擎会在两次获取同一个页面但最终确定同一个页面后触发网站。具体处罚不明确。总之，不利于网站的整个SEO。那么如何防止搜索引擎抓取我们的动态网址网站呢？
　　这个问题可以通过robots.txt文件解决，具体操作请看下面。
　　我们知道动态页面有一个共同的特点，就是会有一个“？” 链接中的问号符号，因此我们可以在robots.txt文件中写入以下规则：
　　用户代理： *
　　不允许： /*？*
　　这将禁止搜索引擎抓取网站的整个动态链接。另外，如果我们只想让搜索引擎抓取特定类型的文件，比如html格式的静态页面，我们可以在robots.txt中加入如下规则：
　　用户代理： *
　　允许：.html$
　　不允许： /
　　另外，记得把你写的robots.txt文件放在你的网站的根目录下，否则是不行的。此外，还有一个简单的快捷方式来编写规则。登录google网站管理员工具，在里面写规则，生成robots.txt文件即可。

抓取动态网页( powershell动态网页内容爬取示例2017年2月28日在Powershell小技巧标签爬虫)

网站优化 • 优采云发表了文章 • 0 个评论 • 381 次浏览 • 2021-10-09 16:33 • 来自相关话题

　　抓取动态网页(
powershell动态网页内容爬取示例2017年2月28日在Powershell小技巧标签爬虫)
　　
　　Powershell 动态网页内容抓取示例
　　2017年2月28日在Powershell Tips tag crawler from pansal
　　1.目标网站如下：一个内部管理系统，但功能单一，使用极其不方便。该项目的目的是利用自动化手段抓取目标信息，并将其传输到本地数据库，进行定制化的数据分析和报告呈现。
　　2、实现思路：使用脚本工具（powershell）模拟网站的登录过程。合法登录当前会话，获取所需数据。
　　
　　3.在本地存储cookie文件。Chrome 会安装 EditThisCookie 插件。然后登录目标网站并按f12查看cookie选项卡。全选复制并保存到本地。请注意，cookie 文件很快就会过期，如果文件过期，则需要对其进行更新。
　　
　　4. 感谢 Mooser Lee 的分享。以下代码可以从 cookie 文件中获取令牌数组并将其分配给 $session 变量。这时候如果用invoke-webrequest或者invoke-restmethod用$Websession参数测试，可以发现可以登录网站，但是只能抓取网页的静态内容。
　　
　　5.为了能够抓取网站的动态内容，继续分析网站，继续使用chrome F12，点击网络标签，只过滤xhr，按F5刷新页面捕获数据包。
　　
　　6、F5刷新后，会抓取很多内容。一项一项检查，你一定会发现某个回复的内容正是你想要的。如下图：复制响应内容与网页对比，可以看到是第一页列表中的内容。这将锁定需要抓取的 URL。
　　
　　7.选择前面的headers选项卡，查看请求方式。可以看出网页采用的是POST方式，需要传参数（如果是get方式会方便很多，具体百度~~）。
　　
　　8.向下滚动标题选项卡，您可以看到许多参数。
　　
　　9. 将参数添加到headers数组中进行备份。不是所有参数都必须带，我挑了几个写的，你也可以自己试试....
　　
　　10.继续下拉查看payload。这部分是body参数。
　　
　　11、如图，直接复制粘贴，新建一个变量使用。这是比较长的。请注意，您需要在中间添加几个转义字符。
　　
　　12、最后呈现invoke-webrequest大法，用一行命令完成：
　　
　　在$r的属性内容中，可以查看动态网页的内容。
　　
　　先分享这么多....当前脚本中的url只是直接使用了当前会话的临时变量。如果您想编写一个可用的脚本，您需要获取一些构成 url 的必要变量。我正在研究怎么做... 查看全部

　　抓取动态网页(
powershell动态网页内容爬取示例2017年2月28日在Powershell小技巧标签爬虫)
　　

　　Powershell 动态网页内容抓取示例
　　2017年2月28日在Powershell Tips tag crawler from pansal
　　1.目标网站如下：一个内部管理系统，但功能单一，使用极其不方便。该项目的目的是利用自动化手段抓取目标信息，并将其传输到本地数据库，进行定制化的数据分析和报告呈现。
　　2、实现思路：使用脚本工具（powershell）模拟网站的登录过程。合法登录当前会话，获取所需数据。
　　

　　3.在本地存储cookie文件。Chrome 会安装 EditThisCookie 插件。然后登录目标网站并按f12查看cookie选项卡。全选复制并保存到本地。请注意，cookie 文件很快就会过期，如果文件过期，则需要对其进行更新。
　　

　　4. 感谢 Mooser Lee 的分享。以下代码可以从 cookie 文件中获取令牌数组并将其分配给 $session 变量。这时候如果用invoke-webrequest或者invoke-restmethod用$Websession参数测试，可以发现可以登录网站，但是只能抓取网页的静态内容。
　　

　　5.为了能够抓取网站的动态内容，继续分析网站，继续使用chrome F12，点击网络标签，只过滤xhr，按F5刷新页面捕获数据包。
　　

　　6、F5刷新后，会抓取很多内容。一项一项检查，你一定会发现某个回复的内容正是你想要的。如下图：复制响应内容与网页对比，可以看到是第一页列表中的内容。这将锁定需要抓取的 URL。
　　

　　7.选择前面的headers选项卡，查看请求方式。可以看出网页采用的是POST方式，需要传参数（如果是get方式会方便很多，具体百度~~）。
　　

　　8.向下滚动标题选项卡，您可以看到许多参数。
　　

　　9. 将参数添加到headers数组中进行备份。不是所有参数都必须带，我挑了几个写的，你也可以自己试试....
　　

　　10.继续下拉查看payload。这部分是body参数。
　　

　　11、如图，直接复制粘贴，新建一个变量使用。这是比较长的。请注意，您需要在中间添加几个转义字符。
　　

　　12、最后呈现invoke-webrequest大法，用一行命令完成：
　　

　　在$r的属性内容中，可以查看动态网页的内容。
　　

　　先分享这么多....当前脚本中的url只是直接使用了当前会话的临时变量。如果您想编写一个可用的脚本，您需要获取一些构成 url 的必要变量。我正在研究怎么做...

抓取动态网页( powershell动态网页内容爬取示例2017年2月28日在Powershell小技巧标签爬虫)

网站优化 • 优采云发表了文章 • 0 个评论 • 88 次浏览 • 2021-10-09 03:16 • 来自相关话题