自动抓取网页数据(使用VC的socket编程,网上能找到一大堆http的get和post方法程序)

优采云 发布时间: 2021-12-20 09:15

  自动抓取网页数据(使用VC的socket编程,网上能找到一大堆http的get和post方法程序)

  最近突然有了一个想法,通过程序在客户端自动完成一些比较复杂的功能,比如自动注册论坛发帖,使用一些网站搜索功能自动搜索组织感兴趣的数据, 站内自动发送短信甚至自动发送邮件;说白了就是一些所谓的“饮水机”、“爆款机”、“垃圾机”。当然,我的出发点是学习和提高。

  由于之前没接触过这方面的东西,所以决定先实现一小部分功能,打下基础。这个小项目的功能是使用该程序在论坛中自动发表评论。可以在人输入文字后由程序提交,也可以由程序自动获取网友发表的评论并作为关键词google,得到结果后回复论坛。,后面的功能本来是想智能聊天的,但是为了实现简单的处理,效果并不好,下面讨论这个功能的实现。

  程序中要做的工作是用用户名和密码登录,2、获取某个栏目的页面,然后依次搜索每个主题,并保存标题、超链接和其他信息,3、通过比较最后一个回复者的名字来确定回复的主题,输入主题,通过计算和使用主键的方法找到最后一个回复,4、截取部分内容, URL-encode后提交到google搜索页面,5、同样通过主键方法和简单计算索引到第一个搜索结果,6、对结果进行URL-encode后提交给论坛相应主题完成回复。

  使用VC socket编程,在网上可以找到很多http get和post方法的程序。通过这些方法,程序可以自动获取和提交数据。以下是该项目的一些困难。要提交中文,必须对其进行编码。不同的网站可能使用不同的编码,主要是GBK和UTF-8。论坛是前者,谷歌是后者。浏览器有这些编码功能,那么我程序的本质就是将一种编码数据的数据交换到另一种编码数据,然后返回到原来的编码数据。编码方式也可以在网上搜索。提交数据时,http头需要给出提交的内容,所以程序应该根据提交数据的长度自动合成一个声明长度的提交字符串。此外,通过获取的网页数据搜索感兴趣的话题和其他信息也很关键。可以通过分析html源代码找到合适的算法。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线