搜狗陌陌的抓取总结
优采云 发布时间: 2020-08-21 22:19搜狗陌陌的抓取总结
最近抓取了搜狗陌陌的数据,虽然也破解了跳转之类的,但是最后由于抓取的链接有时效性舍弃了,也总结下
一样的,输入关键词,抓取列表,再回来跳转后的陌陌链接
前10页是可以随意看的,也不需要登陆,10页以后的数据须要陌陌扫码登陆,这一块无法破解
链接参数好多最后可以精简为
烽火&page=11&type=2
page就是页脚,query就是关键字,type 是搜索文章还是搜索公众号
其实很简单的代码,先要在url前面构造出 k 和 h,转化为 java 代码就是
// 拼接搜狗跳转参数k和h
public static String getLinkUrl(String url) {
int b = ((int) Math.floor(100 * Math.random())) + 1;
int a = url.indexOf("url=");
int k = a + 4 + 21 + b;
String d = url.substring(k, k + 1);
System.out.println(d);
url += "&k=" + b + "&h=" + d;
return "https://weixin.sogou.com" + url;
}
有参数的链接直接恳求是会出验证码的,需要cookie,需要的cookie只要是两个 一个是 SUV,一个是SNUID,这两个cookie获取都很简单,通过剖析可以得到
1.SUV 是可以通过访问来获取到
2.SNUID 在搜索的时侯才会有了
所以我们加上这两个cookie才能获取到具体的陌陌的链接了
剩下的就是把这个链接取下来就行啦
虽然还有好多细节没有建立,但是最坑的是最后的陌陌链接是有时效性的
太坑了,市面上有将有时效的链接转换为没有时效的链接的商业服务,不知道是她们是如何实现的。目前在看陌陌客户端上面的搜一搜,因为通过客户端的搜一搜搜下来的链接是短短的,应该是失效太长的
2020-06-04 更新
找到了转换永久链接的办法,把有时效性的链接复制到陌陌客户端上面,不管是过没过期的链接都是才能打开的,再把链接复制下来就是永久的链接了,使用了 pythonpyautogui 来操作的,很简单,也太low,速度不快,就不放代码了。