c httpclient抓取网页(环境准备引入maven依赖加入日志配置文件的HTTP协议访问网页 )
优采云 发布时间: 2021-11-18 16:14c httpclient抓取网页(环境准备引入maven依赖加入日志配置文件的HTTP协议访问网页
)
文章内容
网络爬虫是根据一定的规则自动抓取万维网信息的程序或脚本。我们一直使用HTTP协议访问互联网上的网页,而网络爬虫需要编写程序,其中访问网页也使用相同的HTTP协议。这里我们使用Java的HTTP协议客户端HttpClient的技术来抓取网页数据。环境准备
引入maven依赖
org.apache.httpcomponents
httpclient
4.5.3
org.slf4j
slf4j-log4j12
1.7.25
添加日志配置文件
log4j.rootLogger=DEBUG,A1
log4j.logger.cn.itcast = DEBUG
log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c]-[%p] %m%n