抓取网页数据工具(之前有一个工具自动抓取数据的工具主要做什么? )
优采云 发布时间: 2021-09-14 11:16抓取网页数据工具(之前有一个工具自动抓取数据的工具主要做什么?
)
之前有一项工作是在服务器上复制一串文本。这是一个非常简单的操作,但需要重复大约 50 次。每次大概用了三分钟,重复了两个多小时就过去了。所以我做了这个工具来自动抓取数据。
该工具主要做三件事:登录、下载、拦截。
登录部分是因为服务器使用windows安全验证,如图:
需要模拟登录才能获取网页数据。
先用fiddler抓取http传输的数据包,在header部分找到一串字符串:
base64解密后得到:Administrator:manage。
这是用户名:一串加密的密码。 Authorization:Basic是一种认证方式,一般由setRequestProperty设置。
登录后可以直接获取网页内容,然后截取数据。最后在最外层添加一个循环,执行一次需要爬取的服务器地址,然后就可以一次性获取到所有服务器上的数据了。
最后贴出代码:
<p>import java.io.*;
import java.net.*;
public class getPackageFromWeb {
public static void main(String args[]) throws Exception {
String[] servers ={"192.168.0.144:23342","192.168.0.144:23343"};
StringBuilder result=new StringBuilder();
for(int i=0;i