httpunit 抓取网页(之前做*敏*感*词*时,介绍如何使用HtmlTag类来抓取网页信息)之前做*敏*感*词*时,由于在*敏*感*词*中提供了新闻阅读的功能,写了一个从网页中抓取信息(如最新的头条新闻,新闻的来源,标题,内容等)的类,本文将介绍如何使用这个类来抓取网页中需要的信息。本文将以抓取博客园首页的博客标题和链接为例:有了以上函数,就可以提取需要的HTML标志了,要实现抓取,还需要一个下载网页的函数:以下以抓取博客园首页的文章标题和链接为例,介绍如何使用HtmlTag类来抓取网页信息:
继续阅读 »