文章采集内容( 架构君,一个会写代码吟诗的架构师。!!)

优采云 发布时间: 2021-11-29 16:15

  文章采集内容(

架构君,一个会写代码吟诗的架构师。!!)

  java文章采集爬虫代码示例

  

  大家好,我是架构师,会写代码会吟诗的架构师。今天就来说说java文章采集爬虫代码示例,希望对大家有所帮助!!!

  

  前言

  由于爬虫的特殊性,本文将部分爬取文章的网站示例,并替换为###。希望大家都能学会java爬取代码的技巧! ! !

  pom 文件引入了需要的依赖

   org.jsoup jsoup 1.13.1

  只听到山上建筑师的声音:

  林水看着远处,一边哭一边沾着衣服。上联和下联谁来匹配?

  jsoup 是一个 Java HTML 解析器,可以直接解析一个 URL 地址和 HTML 文本内容。它提供了一个非常省力的API,可以通过DOM、CSS和类似jQuery的操作方法来检索和操作数据。

  核心实现代码

  此代码由Java架构师必看网-架构君整理

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.select.Elements;

import java.io.IOException;

/** * 文章采集 * @author tarzan * @date 2021/5/31 */

public class ArticleCollect { //网站地址 private static String webUrl="###"; /** * @param url 访问路径 * @return */ public static Document getDocument(String url) { try { //5000是设置连接超时时间,单位ms return Jsoup.connect(url).timeout(5000).get(); } catch (IOException e) { e.printStackTrace(); } return null; } public static void main(String[] args) { int pageNum=0; while (true){ pageNum++; if(!readPage(webUrl,pageNum)){ break; } } } public static String readArticle(String url) { Document doc= getDocument(url); //获取文章标题 Elements title = doc.select("title"); System.out.println(title); //获取文章内容 Elements content = doc.select("###"); return content.html(); } public static boolean readPage(String webUrl,int pageNum) { Document doc = getDocument(webUrl+"/article/list/"+pageNum); // 获取目标HTML代码 Elements elements = doc.select("###"); //文章列表 Elements articles = elements.select("###"); if (articles.size() == 0) { return false; } articles.forEach(e -> { String url = e.select("a").attr("href"); readArticle(url); try { //等待3秒 Thread.sleep(3000); } catch (InterruptedException interruptedException) { System.out.println("线程中断故障"); } }); return true; }

}

  控制台运行输出

  

  猜你喜欢:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线