抓取网页数据工具(之前有一个工具自动抓取数据的工具主要做什么? )

优采云 发布时间: 2021-09-14 11:16

  抓取网页数据工具(之前有一个工具自动抓取数据的工具主要做什么?

)

  之前有一项工作是在服务器上复制一串文本。这是一个非常简单的操作,但需要重复大约 50 次。每次大概用了三分钟,重复了两个多小时就过去了。所以我做了这个工具来自动抓取数据。

  该工具主要做三件事:登录、下载、拦截。

  登录部分是因为服务器使用windows安全验证,如图:

  

  需要模拟登录才能获取网页数据。

  先用fiddler抓取http传输的数据包,在header部分找到一串字符串:

  

  base64解密后得到:Administrator:manage。

  这是用户名:一串加密的密码。 Authorization:Basic是一种认证方式,一般由setRequestProperty设置。

  登录后可以直接获取网页内容,然后截取数据。最后在最外层添加一个循环,执行一次需要爬取的服务器地址,然后就可以一次性获取到所有服务器上的数据了。

  最后贴出代码:

<p>import java.io.*;

import java.net.*;

public class getPackageFromWeb {

public static void main(String args[]) throws Exception {

String[] servers ={"192.168.0.144:23342","192.168.0.144:23343"};

StringBuilder result=new StringBuilder();

for(int i=0;i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线