java从网页抓取数据(怎样抓取站点的数据：（1）抓取原网页数据)

优采云发布时间: 2021-09-23 07:21

　　说明链接：

　　有时，由于各种原因，我们必须采集某个站点的数据，但由于不同的网站与数据显示略有不同！

　　本文使用Java来演示如何抓取网站的数据:( 1）抓取原创网页数据;（2）抓取Web JavaScript返回的数据。

　　一、 grab原创网页。

　　此示例我们将从顶部抓取IP查询的结果：

　　第一步：打开此页面，然后输入IP：11 1. 14 2. 5. 73，单击“查询”按钮，您可以看到Web显示的结果：

　　步骤2：查看Web源代码，我们在源代码中看到这样的段落：

　　可以从这里看出，查询的结果再次在另一个请求之后再次显示。

　　查询后查看Web地址：

　　也就是说，我们只需访问这样一个URL的形式，您可以获得IP查询的结果，代码旁边：

　　public void captureHtml(String ip) throws Exception {

String strURL = "http://ip.chinaz.com/?IP=" + ip;

URL url = new URL(strURL);

HttpURLConnection httpConn = (HttpURLConnection) url.openConnection();

InputStreamReader input = new InputStreamReader(httpConn

.getInputStream(), "utf-8");

BufferedReader bufReader = new BufferedReader(input);

String line = "";

StringBuilder contentBuf = new StringBuilder();

while ((line = bufReader.readLine()) != null) {

contentBuf.append(line);

}

String buf = contentBuf.toString();

int beginIx = buf.indexOf("查询结果[");

int endIx = buf.indexOf("上面四项依次显示的是");

String result = buf.substring(beginIx, endIx);

System.out.println("captureHtml()的结果：\n" + result);

}

　　使用httpUrlConnection连接站点保存Bufreader返回的数据，然后通过解决您自己的定义来显示结果。

　　我只是一个偶然的解决方案。如果要解决它，则需要重新处理它。

　　解析结果，例如：

　　capturehtml（）结果：

　　查询结果[1]：11 1. 14 2. 5 5. 73 ==＆gt; ＆gt; 1871591241 ==＆gt; ＆gt;福建省漳州移动

　　二、 crawler页面javascript返回的结果。

　　有时该网站是保护自己的数据，也不会直接将数据直接放在Web源代码中，但使用异步方式，用JS返回数据，这避免了搜索引擎和其他工具来捕获网站数据。。

　　首先查看此页面：

　　以第一种方式查看网页的源代码，但没有Waybill的跟踪信息，因为它通过JS获取结果。

　　但有时我们必须得到JS的数据，我该怎么做？

　　我们必须使用工具：HTTP*敏*感*词*，此工具可以拦截HTTP的互动内容，我们通过此工具实现了我们的目标。

　　单击startButton后，它开始收听网页的交互行为。

　　我们打开页面：您可以看到HTTP*敏*感*词*列出所有请求数据和结果：

　　对于JS的结果更方便，让我们先将数据输入数据，然后在网页上输入快递号码：7，单击“查询”按钮，然后查看HTTP分析器的结果：

　　这是点击查询按钮，HTTP*敏*感*词*的结果，我们继续查看：

　　从上面的两个图表可以看出，HTTP分析器可以拦截JS返回的数据并在响应内容中显示，并且可以同时看到JS请求的网页地址。

　　在这种情况下，我们只想分析HTTP*敏*感*词*的结果，然后模拟JS的行为来获取数据，即我们只想访问JS的Web地址，当然，数据未加密我们将写下URL：

　　js请求。

　　然后让程序请求此页面的结果！

　　以下是代码：

　　public void captureJavascript(String postid) throws Exception {

String strURL = "http://www.kiees.cn/sf.php?wen=" + postid

+ "&channel=&rnd=0";

URL url = new URL(strURL);

HttpURLConnection httpConn = (HttpURLConnection) url.openConnection();

InputStreamReader input = new InputStreamReader(httpConn

.getInputStream(), "utf-8");

BufferedReader bufReader = new BufferedReader(input);

String line = "";

StringBuilder contentBuf = new StringBuilder();

while ((line = bufReader.readLine()) != null) {

contentBuf.append(line);

}

System.out.println("captureJavascript()的结果：\n" + contentBuf.toString());

}

　　参见它，抓住js模式和捕获原创网页的代码，我们只有一个分析js的过程。

　　以下是程序运行的结果：

　　capturejavascript（）结果：

　　Waybill [7]跟踪信息

　　这些数据是JS返回的结果，我们的目的是达到的！

　　我希望这篇文章有点帮助所需的朋友，请点击这里下载！

0

2021-09-23

java从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java从网页抓取数据(怎样抓取站点的数据：（1）抓取原网页数据)

0 个评论

发起人