在线抓取网页(主流开源爬虫框架nutch,spider)
优采云 发布时间: 2022-02-17 18:27在线抓取网页(主流开源爬虫框架nutch,spider)
有时在获取数据的时候,没有数据源,或者对方没有提及接口和数据库,只是提供了一个网站作为数据源给我们。这时候我们需要抓取网页中的html元素。并且同时解析,过滤掉我们不需要的数据,得到我们想要的数据。当然,我们也可以使用目前主流的开源爬虫框架nutch、spider。但是如果需求不是很复杂,比如只抓取网页的一小部分的情况下,我们可以自己写一个爬虫类来满足我们的需求。下面是我参考网站资源和一些工具类写的一个例子,如下图:
首先,我们抓取一个网页。例如网页的形式是:
First parse
<p>Parsed HTML into a doc.
Parsed HTMfdaL into a dodasc.
</p>
例如,它的 网站 是: 。
以下是编写的爬取和解析过程
1个工具类ClawerClient
/**
* 当有些网页中存在一些嵌套的redirect连接时,它就会报Server redirected too many times这样的错误,
* 这是因为此网页内部又有一些代码是转向其它网页的,循环过多导致程序出错。如果只想抓取本URL中的网页内容,
* 而不愿意让它有其它 的网页跳转,可以用以下的代码。
* @param myurl
* @throws Exception
*/
@SuppressWarnings("static-access")
public static String clawer2(String myurl) throws Exception{
URL urlmy = new URL(myurl);
HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();
con.setFollowRedirects(true);
con.setInstanceFollowRedirects(false);
con.connect();
BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8"));
String s = "";
StringBuffer sb = new StringBuffer("");
while ((s = br.readLine()) != null) {
sb.append(s+"\r\n");
}
return sb.toString();
}
2.抓取数据源后,我使用JSoup包解析。JSoup的下载地址为:
这是一个简单的代码片段:
//这里得到网页内容
String htmlContent = ClawerClient.clawer2(url);
//使用jSoup解析里头的内容
//就像操作html doc文档对象一样操作网页中的元素
Document doc = Jsoup.parse(htmlContent);
Element body = doc.body();
Element span = body.select("p").first();
System.out.println(span.text());
您可以在第一个 p 元素中获取值:
将 HTML 解析为文档。
当然,还有一些比较常用的方法。有关详细信息,请查看 JSoup 文档。
原来的: