网页数据链接、识别汉字编码、转换和处理字符串

优采云发布时间: 2021-02-25 08:00

　　第1课摘要：

　　本课使用一个示例来说明获取网页数据链接，识别汉字代码，转换和处理字符串以及获取所需数据的简单方法。要求学生在课后找到网站进行测试，练习使用数据包捕获软件，以及使用诸如获取字符串后的拆分之类的功能提取数据的基本技能。

　　在实际的网页采集中，我们经常遇到比示例网站复杂几倍甚至数十倍的网页。完整的网页采集程序需要处理以下问题：

　　1、如有必要，请登录网站。您可能需要验证码（您需要获取图片并进行OCR识别）

　　2、找到网站的初始链接，并获取隐藏的提交信息，例如cookie或viewstate，以准备提交实际数据链接。

　　3、如有必要，找到网站中文设置方法，该方法可以直接在链接中编写，也可以在提交的参数中编写，或者可以提交特殊语言设置链接。

　　4、找到网站的数据链接，捕获数据包以获取Referer值，并解决防垃圾链接

　　5、处理初始网页并获取后续数据链接提交所需的参数（可能没有，或者可能有很多）

　　6、处理网站数据链接的提交参数（可能带有时间戳），可以是GET或POST。后者还必须处理URLEncode编码或其他形式的编码（如果是UTF-8编码，则XMLHTTP会自行处理； WinHttp可以通过参数选择URL编码格式）。

　　7、确定从网站返回的数据的编码，并将其处理为可识别的字符串（可能需要htmlfile对象才能快速操作html文档中的表格，等等）

　　8、处理需要采集数据的字符串，可能需要从中提取页码，可能需要提取下一页的参数，并且可能需要使用数组来提取所需的信息（尤其是网络表单）

　　9、循环执行6-8，直到数据提取结束

　　实际上，无论网站多么复杂，获取数据的基础只不过是两点：

　　1、捕获数据包以查看链接，Cookie，Referer，Post参数，隐藏的提交参数，MD5或RSA加密参数等，然后模拟提交

　　2、处理编码并提取字符串

　　只要您精通这两个基本步骤，再加上充裕的时间，坚定的信念，耐心和一点运气，网页采集的工作将得到解决！

　　相信我

　　随附了一些通过VBA调用JS函数的方法。

0

2021-02-25

免费网页采集器

0 个评论

要回复文章请先登录或注册