java抓取网页内容( 以上的代码程序是把一个网页的源代码a中)

优采云 发布时间: 2021-11-01 23:08

  java抓取网页内容(

以上的代码程序是把一个网页的源代码a中)

  java阅读网页内容的详细例子

  

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.*;

public class loadurl {

public static void main(String args[]) {

String a = null;

try {

String url = "(这里替换成任意网页的网址)";

BufferedReader in = new BufferedReader(new InputStreamReader(

new URL(url).openConnection().getInputStream(), "GB2312"));//GB2312可以根据需要替换成要读取网页的编码

while ((a = in.readLine()) != null) {

System.out.println(a);

}

} catch (MalformedURLException e) {

} catch (IOException e) {

}

}

}

  上面的代码程序将一个网页的源代码,包括 HTML 和 XML,读取到 JAVA 中的字符串 String a 中。

  Java中的String类型空间很大,基本可以容纳一个网页源码的内容。

  从网页中读取内容也是对输入流的操作。

  与标准输入源不同,在:

  

BufferedReader in = new BufferedReader(new InputStreamReader(...))

  只需在 InputStreamReader 中输入 System.in。

  这里的输入源应该是:

  

(new URL(url).openConnection().getInputStream(), "GB2312")

  后续操作和处理与加载标准输入源完全相同。

  BufferedReader 要求JAVA 必须捕获IOException,使用URL source 不仅要导入.* 包,还要捕获MalformedURLException。

  如有问题,请留言或到本站社区讨论,感谢阅读,希望对您有所帮助,感谢您对本站的支持!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线