c httpclient抓取网页(环境准备引入maven依赖加入日志配置文件的HTTP协议访问网页 )

优采云 发布时间: 2021-11-18 16:14

  c httpclient抓取网页(环境准备引入maven依赖加入日志配置文件的HTTP协议访问网页

)

  文章内容

  网络爬虫是根据一定的规则自动抓取万维网信息的程序或脚本。我们一直使用HTTP协议访问互联网上的网页,而网络爬虫需要编写程序,其中访问网页也使用相同的HTTP协议。这里我们使用Java的HTTP协议客户端HttpClient的技术来抓取网页数据。环境准备

  引入maven依赖

  

org.apache.httpcomponents

httpclient

4.5.3

org.slf4j

slf4j-log4j12

1.7.25

  添加日志配置文件

  log4j.rootLogger=DEBUG,A1

log4j.logger.cn.itcast = DEBUG

log4j.appender.A1=org.apache.log4j.ConsoleAppender

log4j.appender.A1.layout=org.apache.log4j.PatternLayout

log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c]-[%p] %m%n

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线