java抓取网页内容(接上简易爬虫配置池线程池(ThreadPoolTaskExecutor)抓取任务的方法)网络爬虫的都是通过多线程,多任务逻辑实现的,在springboot框架中已封装线程池(ThreadPoolTaskExecutor),我们只需要使用就是了。这一节我们主要实现多线程抓取网页连接信息,并将信息存储在队列里面。为了简化编码,这里引入了lombok,在使用时候IDE需要安装lombok插件,否则会提示编译错误。其他页面信息封装类SpiderHtml$URL就是需要抓取的网页地址。
继续阅读 »