搜狗陌陌的抓取总结

优采云 发布时间: 2020-08-21 22:19

  搜狗陌陌的抓取总结

  最近抓取了搜狗陌陌的数据,虽然也破解了跳转之类的,但是最后由于抓取的链接有时效性舍弃了,也总结下

  

  一样的,输入关键词,抓取列表,再回来跳转后的陌陌链接

  前10页是可以随意看的,也不需要登陆,10页以后的数据须要陌陌扫码登陆,这一块无法破解

  链接参数好多最后可以精简为

  烽火&page=11&type=2

  page就是页脚,query就是关键字,type 是搜索文章还是搜索公众号

  

  其实很简单的代码,先要在url前面构造出 k 和 h,转化为 java 代码就是

  

// 拼接搜狗跳转参数k和h

public static String getLinkUrl(String url) {

int b = ((int) Math.floor(100 * Math.random())) + 1;

int a = url.indexOf("url=");

int k = a + 4 + 21 + b;

String d = url.substring(k, k + 1);

System.out.println(d);

url += "&k=" + b + "&h=" + d;

return "https://weixin.sogou.com" + url;

}

  有参数的链接直接恳求是会出验证码的,需要cookie,需要的cookie只要是两个 一个是 SUV,一个是SNUID,这两个cookie获取都很简单,通过剖析可以得到

  1.SUV 是可以通过访问来获取到

  

  2.SNUID 在搜索的时侯才会有了

  

  所以我们加上这两个cookie才能获取到具体的陌陌的链接了

  

  剩下的就是把这个链接取下来就行啦

  虽然还有好多细节没有建立,但是最坑的是最后的陌陌链接是有时效性的

  

  太坑了,市面上有将有时效的链接转换为没有时效的链接的商业服务,不知道是她们是如何实现的。目前在看陌陌客户端上面的搜一搜,因为通过客户端的搜一搜搜下来的链接是短短的,应该是失效太长的

  

  2020-06-04 更新

  找到了转换永久链接的办法,把有时效性的链接复制到陌陌客户端上面,不管是过没过期的链接都是才能打开的,再把链接复制下来就是永久的链接了,使用了 pythonpyautogui 来操作的,很简单,也太low,速度不快,就不放代码了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线