c httpclient抓取网页(环境准备引入maven依赖加入日志配置文件的HTTP协议访问网页 )

优采云发布时间: 2021-11-18 16:14

　　c httpclient抓取网页(环境准备引入maven依赖加入日志配置文件的HTTP协议访问网页

)

　　文章内容

　　网络爬虫是根据一定的规则自动抓取万维网信息的程序或脚本。我们一直使用HTTP协议访问互联网上的网页，而网络爬虫需要编写程序，其中访问网页也使用相同的HTTP协议。这里我们使用Java的HTTP协议客户端HttpClient的技术来抓取网页数据。环境准备

　　引入maven依赖

org.apache.httpcomponents

httpclient

4.5.3

org.slf4j

slf4j-log4j12

1.7.25

　　添加日志配置文件

　　log4j.rootLogger=DEBUG,A1

log4j.logger.cn.itcast = DEBUG

log4j.appender.A1=org.apache.log4j.ConsoleAppender

log4j.appender.A1.layout=org.apache.log4j.PatternLayout

log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c]-[%p] %m%n

0

2021-11-18

c httpclient抓取网页

0 个评论

要回复文章请先登录或注册