网页数据链接、识别汉字编码、转换和处理字符串
优采云 发布时间: 2021-02-25 08:00网页数据链接、识别汉字编码、转换和处理字符串
第1课摘要:
本课使用一个示例来说明获取网页数据链接,识别汉字代码,转换和处理字符串以及获取所需数据的简单方法。要求学生在课后找到网站进行测试,练习使用数据包捕获软件,以及使用诸如获取字符串后的拆分之类的功能提取数据的基本技能。
在实际的网页采集中,我们经常遇到比示例网站复杂几倍甚至数十倍的网页。完整的网页采集程序需要处理以下问题:
1、如有必要,请登录网站。您可能需要验证码(您需要获取图片并进行OCR识别)
2、找到网站的初始链接,并获取隐藏的提交信息,例如cookie或viewstate,以准备提交实际数据链接。
3、如有必要,找到网站中文设置方法,该方法可以直接在链接中编写,也可以在提交的参数中编写,或者可以提交特殊语言设置链接。
4、找到网站的数据链接,捕获数据包以获取Referer值,并解决防垃圾链接
5、处理初始网页并获取后续数据链接提交所需的参数(可能没有,或者可能有很多)
6、处理网站数据链接的提交参数(可能带有时间戳),可以是GET或POST。后者还必须处理URLEncode编码或其他形式的编码(如果是UTF-8编码,则XMLHTTP会自行处理; WinHttp可以通过参数选择URL编码格式)。
7、确定从网站返回的数据的编码,并将其处理为可识别的字符串(可能需要htmlfile对象才能快速操作html文档中的表格,等等)
8、处理需要采集数据的字符串,可能需要从中提取页码,可能需要提取下一页的参数,并且可能需要使用数组来提取所需的信息(尤其是网络表单)
9、循环执行6-8,直到数据提取结束
实际上,无论网站多么复杂,获取数据的基础只不过是两点:
1、捕获数据包以查看链接,Cookie,Referer,Post参数,隐藏的提交参数,MD5或RSA加密参数等,然后模拟提交
2、处理编码并提取字符串
只要您精通这两个基本步骤,再加上充裕的时间,坚定的信念,耐心和一点运气,网页采集的工作将得到解决!
相信我
随附了一些通过VBA调用JS函数的方法。