网站调用新浪微博内容(如果你想用Python模拟登陆新浪微博,这篇文章绝对你!)
优采云 发布时间: 2021-10-27 21:00网站调用新浪微博内容(如果你想用Python模拟登陆新浪微博,这篇文章绝对你!)
更新:上一版本使用了自用框架PSpider的部分功能。更新后的版本只使用requests库,改写成Class的形式,方便大家运行调试。
-------------------------------------------------- -------------------------------------------------- ----
干货来了,想学Python模拟登录,想知道如何使用抓包工具一步步搞定网站登录流程,想破解网站@ > 登录加密算法,那么这篇文章文章绝对值得你!
标题随意开头,不喜欢,但是这个文章真的很详细的分析了新浪微博的登录过程,包括各种加密算法分析、验证码分析、跳转分析等等。还有登录代码供参考。代码在文章末尾给出,同时上传到GitHub。你可以参考一下。
登录代码地址:GitHub-xianhu/LearnPython:以代码的形式学习Python。
代码中用到了爬虫框架PSpider中的一些功能。看框架:一个非常简洁的Python爬虫框架。
如果你需要学习爬虫的基础知识,请移步:一个很“水”的Python爬虫入门代码文件。
如果想用Python模拟登录新浪微博,首先得去百度了解一些相关知识,了解前人做过一些工作。通过这里搜索,可以知道新浪微博在登录时对用户名和密码进行了加密,也知道了加密算法(b64encode、rsa等)。这是一个总体印象。我会一步一步告诉你如何发现新浪微博的加密算法。毕竟教人钓鱼不如教人钓鱼!
这里用到的工具是Charles,Mac下的抓包工具。Windows 下对应的是 Fiddler。如果您不知道如何使用它或不熟悉它,建议先安装一个并熟悉该软件的使用。
好了,准备工作完成,废话不多说,开始干货!
(1)打开Charles后,打开新浪微博的登录页面,输入用户名、密码和验证码,再次登录。此时Charles将把整个登录过程留给后面分析。
(2)分析的第一步就是要知道如何加密用户名。在Charles中搜索“username”。为什么要这样搜索?如果做网站,估计90%的用户都会给name这个变量命名为username!搜索后发现只有loginLayers.js这个文件收录username,这个文件的命名也说明跟这个文件有关,凭经验应该可以判断这个文件很重要。
(3)复制这个文件的内容,放到一个文本文件中,搜索username,你会发现下图中这几行代码,然后就知道用户名的加密方法了。user name加密方法很简单,encode后跟一个base64就可以了。具体怎么写Python,自己看代码。
(4)用户名是加密的,密码应该是加密的。继续在这个文件中搜索密码,得到:
可以推断,this.login中的参数b应该是password。查看登录功能,可以得到:
这里调用loginByXMLHttpRequest函数,传入参数b,即password,于是我们继续搜索loginByXMLHttpRequest,得到:
这里调用了makeXMLRequestQuery函数,传入了参数b,即password,于是我们继续搜索makeXMLRequestQuery,得到:
这里调用makeRequest函数,传入参数b,即password,于是我们继续搜索makeRequest,得到:
在这里可以清晰的看到密码加密的过程。具体如何实现Python,还是自己看代码。但是这里有一个问题。密码加密的时候,有几个参数需要传入,比如nonce,servertime,rsakv等等,这是什么鬼?继续往下看。
(5)在Charles中搜索servertime,会得到一个prelogin请求,返回servertime,nonce,pubkey等参数,这里返回的是一个json字符串。
查看请求的请求,可以看到他需要对用户名su进行加密。根据这里的参数,可以对密码进行加密。下面稍微回忆一下,总结一下整个过程:
(6)在Charles中可以找到login.php请求,根据经验,可以大致判断这是一个登录请求,结果确实如此,根据请求的请求,您可以自己构建postdata并发送请求。
这里需要说明一下验证码问题。有些帐户需要验证码才能登录,有些则不需要。这个跟账号设置有关,有登录保护的需要输入验证码。也可以从上面得到的json字符串中的showpin参数得知(详见上图)。如果需要验证码,只需要找到验证码地址,获取图片即可:
将此图片保存到本地进行手动编码,或访问编码平台,即可获取验证码内容。在我的代码中,本来是封装了云编码平台的接口,直接调用就可以了,但是为了大家测试的方便,我改成了手工编码的形式。详情见代码:
(7) 构造postdata,发送请求,即使请求成功,也登录不成功。因为新浪微博还有一步跳转,麻烦吗?别急,胜利就在眼前我们仔细检查Charles后,会发现在上一个请求之后,还有下一个请求wbsso.login,这是跳转,如下图所示。
跳转请求的请求是怎么构造的,看代码就可以了,这里就不讲了。代码显示如下:
代码还会检查是否登录成功,这里就不多说了。至此,新浪微博已成功登录。
还有一个问题这里没有提到,就是cookie问题。Cookie 在本文中没有提及,因为 Python 中的 Cookiejar 会帮助我们自动处理所有 cookie 问题。您只需要在模拟登录前声明一个 cookiejar 和 opener。这两个东西的具体用法请自行百度。代码显示如下:
微博的模拟登录真的很麻烦,确实需要一定的经验。每个人都练习了很多,并掌握了这一点。相信在模拟登录其他网站的时候,也可以类比破解登录过程。有什么问题可以在评论里指出,有时间我会帮你解答的。
总代码如下:
# _*_ coding: utf-8 _*_
import re
import rsa
import time
import json
import base64
import logging
import binascii
import requests
import urllib.parse
class WeiBoLogin(object):
"""
class of WeiBoLogin, to login weibo.com
"""
def __init__(self):
"""
constructor
"""
self.user_name = None
self.pass_word = None
self.user_uniqueid = None
self.user_nick = None
self.session = requests.Session()
self.session.headers.update({"User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0"})
self.session.get("http://weibo.com/login.php")
return
def login(self, user_name, pass_word):
"""
login weibo.com, return True or False
"""
self.user_name = user_name
self.pass_word = pass_word
self.user_uniqueid = None
self.user_nick = None
# get json data
s_user_name = self.get_username()
json_data = self.get_json_data(su_value=s_user_name)
if not json_data:
return False
s_pass_word = self.get_password(json_data["servertime"], json_data["nonce"], json_data["pubkey"])
# make post_data
post_data = {
"entry": "weibo",
"gateway": "1",
"from": "",
"savestate": "7",
"userticket": "1",
"vsnf": "1",
"service": "miniblog",
"encoding": "UTF-8",
"pwencode": "rsa2",
"sr": "1280*800",
"prelt": "529",
"url": "http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack",
"rsakv": json_data["rsakv"],
"servertime": json_data["servertime"],
"nonce": json_data["nonce"],
"su": s_user_name,
"sp": s_pass_word,
"returntype": "TEXT",
}
# get captcha code
if json_data["showpin"] == 1:
url = "http://login.sina.com.cn/cgi/pin.php?r=%d&s=0&p=%s" % (int(time.time()), json_data["pcid"])
with open("captcha.jpeg", "wb") as file_out:
file_out.write(self.session.get(url).content)
code = input("请输入验证码:")
post_data["pcid"] = json_data["pcid"]
post_data["door"] = code
# login weibo.com
login_url_1 = "http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)&_=%d" % int(time.time())
json_data_1 = self.session.post(login_url_1, data=post_data).json()
if json_data_1["retcode"] == "0":
params = {
"callback": "sinaSSOController.callbackLoginStatus",
"client": "ssologin.js(v1.4.18)",
"ticket": json_data_1["ticket"],
"ssosavestate": int(time.time()),
"_": int(time.time()*1000),
}
response = self.session.get("https://passport.weibo.com/wbsso/login", params=params)
json_data_2 = json.loads(re.search(r"\((?P.*)\)", response.text).group("result"))
if json_data_2["result"] is True:
self.user_uniqueid = json_data_2["userinfo"]["uniqueid"]
self.user_nick = json_data_2["userinfo"]["displayname"]
logging.warning("WeiBoLogin succeed: %s", json_data_2)
else:
logging.warning("WeiBoLogin failed: %s", json_data_2)
else:
logging.warning("WeiBoLogin failed: %s", json_data_1)
return True if self.user_uniqueid and self.user_nick else False
def get_username(self):
"""
get legal username
"""
username_quote = urllib.parse.quote_plus(self.user_name)
username_base64 = base64.b64encode(username_quote.encode("utf-8"))
return username_base64.decode("utf-8")
def get_json_data(self, su_value):
"""
get the value of "servertime", "nonce", "pubkey", "rsakv" and "showpin", etc
"""
params = {
"entry": "weibo",
"callback": "sinaSSOController.preloginCallBack",
"rsakt": "mod",
"checkpin": "1",
"client": "ssologin.js(v1.4.18)",
"su": su_value,
"_": int(time.time()*1000),
}
try:
response = self.session.get("http://login.sina.com.cn/sso/prelogin.php", params=params)
json_data = json.loads(re.search(r"\((?P.*)\)", response.text).group("data"))
except Exception as excep:
json_data = {}
logging.error("WeiBoLogin get_json_data error: %s", excep)
logging.debug("WeiBoLogin get_json_data: %s", json_data)
return json_data
def get_password(self, servertime, nonce, pubkey):
"""
get legal password
"""
string = (str(servertime) + "\t" + str(nonce) + "\n" + str(self.pass_word)).encode("utf-8")
public_key = rsa.PublicKey(int(pubkey, 16), int("10001", 16))
password = rsa.encrypt(string, public_key)
password = binascii.b2a_hex(password)
return password.decode()
if __name__ == "__main__":
logging.basicConfig(level=logging.DEBUG, format="%(asctime)s\t%(levelname)s\t%(message)s")
weibo = WeiBoLogin()
weibo.login("username", "password")
================================================== ============
作者主页:小虎(Python爱好者,关注爬虫、数据分析、数据挖掘、数据可视化等)
作者专栏首页:代码,学习知识-知乎专栏
作者GitHub主页:代码,学习知识-GitHub
欢迎大家发表评论和评论。相互交流,共同进步!
================================================== ============