网站调用新浪微博内容(如果你想用Python模拟登陆新浪微博,这篇文章绝对你!)

优采云 发布时间: 2021-10-27 21:00

  网站调用新浪微博内容(如果你想用Python模拟登陆新浪微博,这篇文章绝对你!)

  更新:上一版本使用了自用框架PSpider的部分功能。更新后的版本只使用requests库,改写成Class的形式,方便大家运行调试。

  -------------------------------------------------- -------------------------------------------------- ----

  干货来了,想学Python模拟登录,想知道如何使用抓包工具一步步搞定网站登录流程,想破解网站@ > 登录加密算法,那么这篇文章文章绝对值得你!

  标题随意开头,不喜欢,但是这个文章真的很详细的分析了新浪微博的登录过程,包括各种加密算法分析、验证码分析、跳转分析等等。还有登录代码供参考。代码在文章末尾给出,同时上传到GitHub。你可以参考一下。

  登录代码地址:GitHub-xianhu/LearnPython:以代码的形式学习Python。

  代码中用到了爬虫框架PSpider中的一些功能。看框架:一个非常简洁的Python爬虫框架。

  如果你需要学习爬虫的基础知识,请移步:一个很“水”的Python爬虫入门代码文件。

  如果想用Python模拟登录新浪微博,首先得去百度了解一些相关知识,了解前人做过一些工作。通过这里搜索,可以知道新浪微博在登录时对用户名和密码进行了加密,也知道了加密算法(b64encode、rsa等)。这是一个总体印象。我会一步一步告诉你如何发现新浪微博的加密算法。毕竟教人钓鱼不如教人钓鱼!

  这里用到的工具是Charles,Mac下的抓包工具。Windows 下对应的是 Fiddler。如果您不知道如何使用它或不熟悉它,建议先安装一个并熟悉该软件的使用。

  好了,准备工作完成,废话不多说,开始干货!

  (1)打开Charles后,打开新浪微博的登录页面,输入用户名、密码和验证码,再次登录。此时Charles将把整个登录过程留给后面分析。

  

  (2)分析的第一步就是要知道如何加密用户名。在Charles中搜索“username”。为什么要这样搜索?如果做网站,估计90%的用户都会给name这个变量命名为username!搜索后发现只有loginLayers.js这个文件收录username,这个文件的命名也说明跟这个文件有关,凭经验应该可以判断这个文件很重要。

  

  (3)复制这个文件的内容,放到一个文本文件中,搜索username,你会发现下图中这几行代码,然后就知道用户名的加密方法了。user name加密方法很简单,encode后跟一个base64就可以了。具体怎么写Python,自己看代码。

  

  (4)用户名是加密的,密码应该是加密的。继续在这个文件中搜索密码,得到:

  

  可以推断,this.login中的参数b应该是password。查看登录功能,可以得到:

  

  这里调用loginByXMLHttpRequest函数,传入参数b,即password,于是我们继续搜索loginByXMLHttpRequest,得到:

  

  这里调用了makeXMLRequestQuery函数,传入了参数b,即password,于是我们继续搜索makeXMLRequestQuery,得到:

  

  这里调用makeRequest函数,传入参数b,即password,于是我们继续搜索makeRequest,得到:

  

  在这里可以清晰的看到密码加密的过程。具体如何实现Python,还是自己看代码。但是这里有一个问题。密码加密的时候,有几个参数需要传入,比如nonce,servertime,rsakv等等,这是什么鬼?继续往下看。

  (5)在Charles中搜索servertime,会得到一个prelogin请求,返回servertime,nonce,pubkey等参数,这里返回的是一个json字符串。

  

  查看请求的请求,可以看到他需要对用户名su进行加密。根据这里的参数,可以对密码进行加密。下面稍微回忆一下,总结一下整个过程:

  (6)在Charles中可以找到login.php请求,根据经验,可以大致判断这是一个登录请求,结果确实如此,根据请求的请求,您可以自己构建postdata并发送请求。

  

  这里需要说明一下验证码问题。有些帐户需要验证码才能登录,有些则不需要。这个跟账号设置有关,有登录保护的需要输入验证码。也可以从上面得到的json字符串中的showpin参数得知(详见上图)。如果需要验证码,只需要找到验证码地址,获取图片即可:

  

  将此图片保存到本地进行手动编码,或访问编码平台,即可获取验证码内容。在我的代码中,本来是封装了云编码平台的接口,直接调用就可以了,但是为了大家测试的方便,我改成了手工编码的形式。详情见代码:

  

  (7) 构造postdata,发送请求,即使请求成功,也登录不成功。因为新浪微博还有一步跳转,麻烦吗?别急,胜利就在眼前我们仔细检查Charles后,会发现在上一个请求之后,还有下一个请求wbsso.login,这是跳转,如下图所示。

  

  跳转请求的请求是怎么构造的,看代码就可以了,这里就不讲了。代码显示如下:

  

  代码还会检查是否登录成功,这里就不多说了。至此,新浪微博已成功登录。

  还有一个问题这里没有提到,就是cookie问题。Cookie 在本文中没有提及,因为 Python 中的 Cookiejar 会帮助我们自动处理所有 cookie 问题。您只需要在模拟登录前声明一个 cookiejar 和 opener。这两个东西的具体用法请自行百度。代码显示如下:

  

  微博的模拟登录真的很麻烦,确实需要一定的经验。每个人都练习了很多,并掌握了这一点。相信在模拟登录其他网站的时候,也可以类比破解登录过程。有什么问题可以在评论里指出,有时间我会帮你解答的。

  总代码如下:

  # _*_ coding: utf-8 _*_

import re

import rsa

import time

import json

import base64

import logging

import binascii

import requests

import urllib.parse

class WeiBoLogin(object):

"""

class of WeiBoLogin, to login weibo.com

"""

def __init__(self):

"""

constructor

"""

self.user_name = None

self.pass_word = None

self.user_uniqueid = None

self.user_nick = None

self.session = requests.Session()

self.session.headers.update({"User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0"})

self.session.get("http://weibo.com/login.php")

return

def login(self, user_name, pass_word):

"""

login weibo.com, return True or False

"""

self.user_name = user_name

self.pass_word = pass_word

self.user_uniqueid = None

self.user_nick = None

# get json data

s_user_name = self.get_username()

json_data = self.get_json_data(su_value=s_user_name)

if not json_data:

return False

s_pass_word = self.get_password(json_data["servertime"], json_data["nonce"], json_data["pubkey"])

# make post_data

post_data = {

"entry": "weibo",

"gateway": "1",

"from": "",

"savestate": "7",

"userticket": "1",

"vsnf": "1",

"service": "miniblog",

"encoding": "UTF-8",

"pwencode": "rsa2",

"sr": "1280*800",

"prelt": "529",

"url": "http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack",

"rsakv": json_data["rsakv"],

"servertime": json_data["servertime"],

"nonce": json_data["nonce"],

"su": s_user_name,

"sp": s_pass_word,

"returntype": "TEXT",

}

# get captcha code

if json_data["showpin"] == 1:

url = "http://login.sina.com.cn/cgi/pin.php?r=%d&s=0&p=%s" % (int(time.time()), json_data["pcid"])

with open("captcha.jpeg", "wb") as file_out:

file_out.write(self.session.get(url).content)

code = input("请输入验证码:")

post_data["pcid"] = json_data["pcid"]

post_data["door"] = code

# login weibo.com

login_url_1 = "http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)&_=%d" % int(time.time())

json_data_1 = self.session.post(login_url_1, data=post_data).json()

if json_data_1["retcode"] == "0":

params = {

"callback": "sinaSSOController.callbackLoginStatus",

"client": "ssologin.js(v1.4.18)",

"ticket": json_data_1["ticket"],

"ssosavestate": int(time.time()),

"_": int(time.time()*1000),

}

response = self.session.get("https://passport.weibo.com/wbsso/login", params=params)

json_data_2 = json.loads(re.search(r"\((?P.*)\)", response.text).group("result"))

if json_data_2["result"] is True:

self.user_uniqueid = json_data_2["userinfo"]["uniqueid"]

self.user_nick = json_data_2["userinfo"]["displayname"]

logging.warning("WeiBoLogin succeed: %s", json_data_2)

else:

logging.warning("WeiBoLogin failed: %s", json_data_2)

else:

logging.warning("WeiBoLogin failed: %s", json_data_1)

return True if self.user_uniqueid and self.user_nick else False

def get_username(self):

"""

get legal username

"""

username_quote = urllib.parse.quote_plus(self.user_name)

username_base64 = base64.b64encode(username_quote.encode("utf-8"))

return username_base64.decode("utf-8")

def get_json_data(self, su_value):

"""

get the value of "servertime", "nonce", "pubkey", "rsakv" and "showpin", etc

"""

params = {

"entry": "weibo",

"callback": "sinaSSOController.preloginCallBack",

"rsakt": "mod",

"checkpin": "1",

"client": "ssologin.js(v1.4.18)",

"su": su_value,

"_": int(time.time()*1000),

}

try:

response = self.session.get("http://login.sina.com.cn/sso/prelogin.php", params=params)

json_data = json.loads(re.search(r"\((?P.*)\)", response.text).group("data"))

except Exception as excep:

json_data = {}

logging.error("WeiBoLogin get_json_data error: %s", excep)

logging.debug("WeiBoLogin get_json_data: %s", json_data)

return json_data

def get_password(self, servertime, nonce, pubkey):

"""

get legal password

"""

string = (str(servertime) + "\t" + str(nonce) + "\n" + str(self.pass_word)).encode("utf-8")

public_key = rsa.PublicKey(int(pubkey, 16), int("10001", 16))

password = rsa.encrypt(string, public_key)

password = binascii.b2a_hex(password)

return password.decode()

if __name__ == "__main__":

logging.basicConfig(level=logging.DEBUG, format="%(asctime)s\t%(levelname)s\t%(message)s")

weibo = WeiBoLogin()

weibo.login("username", "password")

  ================================================== ============

  作者主页:小虎(Python爱好者,关注爬虫、数据分析、数据挖掘、数据可视化等)

  作者专栏首页:代码,学习知识-知乎专栏

  作者GitHub主页:代码,学习知识-GitHub

  欢迎大家发表评论和评论。相互交流,共同进步!

  ================================================== ============

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线