在线抓取网页(主流开源爬虫框架nutch,spider)

优采云发布时间: 2022-02-17 18:27

　　有时在获取数据的时候，没有数据源，或者对方没有提及接口和数据库，只是提供了一个网站作为数据源给我们。这时候我们需要抓取网页中的html元素。并且同时解析，过滤掉我们不需要的数据，得到我们想要的数据。当然，我们也可以使用目前主流的开源爬虫框架nutch、spider。但是如果需求不是很复杂，比如只抓取网页的一小部分的情况下，我们可以自己写一个爬虫类来满足我们的需求。下面是我参考网站资源和一些工具类写的一个例子，如下图：

　　首先，我们抓取一个网页。例如网页的形式是：

First parse

<p>Parsed HTML into a doc.

　　Parsed HTMfdaL into a dodasc.

</p>

　　例如，它的网站是：。

　　以下是编写的爬取和解析过程

　　1个工具类ClawerClient

　　 /**

* 当有些网页中存在一些嵌套的redirect连接时，它就会报Server redirected too many times这样的错误，

* 这是因为此网页内部又有一些代码是转向其它网页的，循环过多导致程序出错。如果只想抓取本URL中的网页内容，

* 而不愿意让它有其它的网页跳转，可以用以下的代码。

* @param myurl

* @throws Exception

*/

@SuppressWarnings("static-access")

public static String clawer2(String myurl) throws Exception{

URL urlmy = new URL(myurl);

HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();

con.setFollowRedirects(true);

con.setInstanceFollowRedirects(false);

con.connect();

BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8"));

String s = "";

StringBuffer sb = new StringBuffer("");

while ((s = br.readLine()) != null) {

sb.append(s+"\r\n");

}

return sb.toString();

}

　　2.抓取数据源后，我使用JSoup包解析。JSoup的下载地址为：

　　这是一个简单的代码片段：

　　 //这里得到网页内容

String htmlContent = ClawerClient.clawer2(url);

//使用jSoup解析里头的内容

//就像操作html doc文档对象一样操作网页中的元素

Document doc = Jsoup.parse(htmlContent);

Element body = doc.body();

Element span = body.select("p").first();

System.out.println(span.text());

　　您可以在第一个 p 元素中获取值：

　　将 HTML 解析为文档。

　　当然，还有一些比较常用的方法。有关详细信息，请查看 JSoup 文档。

　　原来的：

0

2022-02-17

在线抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

在线抓取网页(主流开源爬虫框架nutch,spider)

0 个评论

发起人