自动抓取网页数据(2021-10-06网络爬虫(Webcrawler)介绍)
优采云 发布时间: 2022-02-13 12:02自动抓取网页数据(2021-10-06网络爬虫(Webcrawler)介绍)
2021-10-061.介绍节目
网络爬虫是根据一定的规则自动从万维网上抓取信息的程序或脚本
1.1.环境准备
1.2.log4j.properties
1.3.节目
2.网络爬虫简介2.1.什么是网络爬虫?
网络爬虫,也称为网络机器人,可以代替人自动采集并组织互联网上的数据和信息。它是一个程序或脚本,根据一定的规则自动从万维网上抓取信息,并且可以自动采集它可以访问的页面的所有内容来获取相关数据。
从功能上来说,爬虫一般分为数据采集、处理、存储三部分。爬虫从一个或多个初始网页的URL开始,获取初始网页上的URL。在抓取网页的过程中,它不断地从当前页面中提取新的 URL 并放入队列中,直到满足系统的某些停止条件。
2.2.为什么要学习网络爬虫?可以实现搜索引擎大数据时代,让我们获得更多的数据源。更好的搜索引擎优化 (SEO)。有利于就业。3.HttpClient 抓取数据
网络爬虫使用程序来帮助我们访问 Internet 上的资源。我们一直使用 HTTP 协议来访问 Internet 上的网页。网络爬虫需要编写程序来使用相同的 HTTP 协议访问网页。
这里我们使用Java的HTTP协议客户端HttpClient技术来抓取网页数据。
3.1.GET 请求
3.2.带参数的GET请求
3.3.POST 请求
3.4.带参数的POST请求
3.5.连接池
3.6.请求参数
4.Jsoup解析数据
我们抓取页面后,还需要解析页面。可以使用字符串处理工具来解析页面,也可以使用正则表达式,但是这些方法会带来很大的开发成本,所以我们需要使用专门解析html页面的技术
4.1.Jsoup简介
Jsoup的依赖:
4.2.解析网址
jsoup可以直接输入url,会发起请求并获取数据,封装为Document对象
虽然 Jsoup 可以代替 HttpClient 直接发起请求解析数据,但往往不会这样使用,因为在实际开发过程中,需要用到多线程、连接池、代理等,而 jsoup 不支持这些都很好,所以我们一般只使用jsoup作为一个Html解析工具
4.3.解析字符串
4.4.解析文件
4.5.使用dom方法遍历文档
元素获取
从元素中获取数据
4.6.选择器选择器概述
4.7.Selector 选择器组合使用
分类:
技术要点:
相关文章: