java爬虫抓取网页数据(内容简明扼要能使你眼前一亮,通过这篇文章的详细介绍)

优采云 发布时间: 2022-03-16 12:24

  java爬虫抓取网页数据(内容简明扼要能使你眼前一亮,通过这篇文章的详细介绍)

  这篇文章文章教你如何使用JAVA编写爬虫。内容简洁易懂,一定会让你眼前一亮。通过这次对文章的详细介绍,希望你能有所收获。

  这篇文章文章其实是我很久以前写的,所以这次重新整理一下。很多朋友可能没有尝试过用Java写爬虫。可能是因为这方面的资料比较少,也可能是用Python写爬虫太方便了。

  基本概念

  jsoupi 是一个用于处理实际 HTML 的 Java 库。它提供了一个非常方便的 API,用于提取和操作数据,使用 DOM、CSS 和类似 jquery 的最佳方法。

  以上是jsoup的官方解释,意思是jsoup是一个Java HTML解析器,可以直接解析一个URL地址和HTML文本内容。它提供了一个非常省力的 API,用于通过 DOM、CSS 和类似 jQuery 的操作方法获取和操作数据。

  一般来说,它可以帮助我们解析HTML页面,抓取HTML中的内容。

  开始写代码

  我们的目标是抓取菜鸟笔记上的信息(文章标题和链接)

  

  public static void main(String[] args) {     try {         //下面这行代码是连接我们的目标站点,并且get到他的静态HTML代码    Document document=Jsoup.connect("http://www.runoob.com/w3cnote").get();         //我们把获取到的document打印一下,看看里面到底是啥?    System.out.println(document);  } catch (IOException e) {    e.printStackTrace();  } }

  看看我们代码运行的结果:

  

  

  你会发现我们通过这句话获得了网站《菜鸟笔记》的HTML源码

  我们来分析一下这串html源码

  

  发现这两个正是我们要获取的数据,我们继续爬取

<p>public static void main(String[] args) {     try {    Document document=Jsoup.connect("http://www.runoob.com/w3cnote").get();    //底下一行代码是我们进一步抓取到具体的HTML模块,div表示标签,            //后面的post-intro表示的是div的class            //由于div.post-intro这个标签有多个(每个标题有一个),所以我们先获取到它的所有            Elements elements=document.select("div.post-intro");            //我们来遍历一下,因为div.post-intro有很多个    for(int i=0;i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线