文章采集内容( 架构君，一个会写代码吟诗的架构师。!!)

优采云发布时间: 2021-11-29 16:15

　　文章采集内容(

架构君，一个会写代码吟诗的架构师。!!)

　　java文章采集爬虫代码示例

　　大家好，我是架构师，会写代码会吟诗的架构师。今天就来说说java文章采集爬虫代码示例，希望对大家有所帮助！！！

　　前言

　　由于爬虫的特殊性，本文将部分爬取文章的网站示例，并替换为###。希望大家都能学会java爬取代码的技巧！！！

　　pom 文件引入了需要的依赖

　　 org.jsoup jsoup 1.13.1

　　只听到山上建筑师的声音：

　　林水看着远处，一边哭一边沾着衣服。上联和下联谁来匹配？

　　jsoup 是一个 Java HTML 解析器，可以直接解析一个 URL 地址和 HTML 文本内容。它提供了一个非常省力的API，可以通过DOM、CSS和类似jQuery的操作方法来检索和操作数据。

　　核心实现代码

　　此代码由Java架构师必看网-架构君整理

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.select.Elements;

import java.io.IOException;

/** * 文章采集 * @author tarzan * @date 2021/5/31 */

public class ArticleCollect { //网站地址 private static String webUrl="###"; /** * @param url 访问路径 * @return */ public static Document getDocument(String url) { try { //5000是设置连接超时时间，单位ms return Jsoup.connect(url).timeout(5000).get(); } catch (IOException e) { e.printStackTrace(); } return null; } public static void main(String[] args) { int pageNum=0; while (true){ pageNum++; if(!readPage(webUrl,pageNum)){ break; } } } public static String readArticle(String url) { Document doc= getDocument(url); //获取文章标题 Elements title = doc.select("title"); System.out.println(title); //获取文章内容 Elements content = doc.select("###"); return content.html(); } public static boolean readPage(String webUrl,int pageNum) { Document doc = getDocument(webUrl+"/article/list/"+pageNum); // 获取目标HTML代码 Elements elements = doc.select("###"); //文章列表 Elements articles = elements.select("###"); if (articles.size() == 0) { return false; } articles.forEach(e -> { String url = e.select("a").attr("href"); readArticle(url); try { //等待3秒 Thread.sleep(3000); } catch (InterruptedException interruptedException) { System.out.println("线程中断故障"); } }); return true; }

}

　　控制台运行输出

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集内容( 架构君，一个会写代码吟诗的架构师。!!)

0 个评论

发起人

AI时代内容工厂

文章采集内容( 架构君，一个会写代码吟诗的架构师。!!)

0 个评论

发起人

相关问题