干货教程:JS逆向教程:Python采集今日头条视频
优采云 发布时间: 2022-12-23 21:49干货教程:JS逆向教程:Python采集今日头条视频
最近在抓取今日头条数据的过程中文章发现视频地址的获取比较复杂。 在源码和浏览器的配合下,找到了对应的解决方案,记录一下。
目录
私信小编01 领取大量Python学习资料
所需Python模块实现思路代码及运行结果文
1. 所需的 Python 模块
模块主要有requests(或者aiohttp),PyExecJS。
前者是请求文章的源码,后者是Python执行JS代码的依赖库,主要是生成视频地址
12
实现思路 1.主要需求是将原文章中的视频和图片地址替换为本地存储地址,所以在视频分析的时候需要下载资源,通过抓包的方式找到对应的视频地址,但是在源码和相关接口响应。 没有找到对应的视频地址参数。
通过文章源码(HTML)浏览器渲染,发现video标签是后面生成的,视频地址也是存在的,所以这个标签肯定是JS生成的,通过搜索标签脚本找到关键JS
2、分析地址对应的js,发现有生成视频标签的方法,依次推断有生成视频地址的方法,如下:
这里我们可以清楚的看到我们要的视频地址是从哪里来的,下面是方法:
分析这个方法,我们发现有一个关键参数t。 另外,在图2中,我们发现方法e和参数v都填上了,这让我想起了之前抓包中某个接口返回的结果对应的main_url var u = o。 data.video_list, h = u.video_1, v = h.main_url, 1233 接口为:
在接口返回的结果中:
同时这个接口中的参数(v0201f800000bub4vq2vtt9a5oknnlp0)可以在源码中找到,可以用正则表达式匹配。
大家可以大胆尝试,在生成视频地址的方法中加入main_url值。 另外,需要在JS底部添加参数: var c = new Array( - 1, -1, -1, -1, -1, -1, -1, -1, -1, - 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 , -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 , 62, -1, -1, -1, 63, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, -1, -1, -1, -1, -1, - 1, -1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 , 15, 16, 17, 18, 19, 20, 21, 22 , 23, 24, 25, -1, -1, -1, -1, -1, -1, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38 , 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, -1, -1, - 1, -1, -1); 1个
我用的是JS调试工具(方便调试,检查代码语法),其他方法也可以
结果是:
%3D%3D&vl=&vr=
这个地址就是视频地址,所以证明上面的猜想是正确的,但是address参数是时效性的,所以需要动态改变。 您可以自己测试再生。
代码和运行结果(我用的是不同的方法)
async def get_page_source(url):
browser = None
page = None
try:
browser = await launch(
headless=True,
ignoreHTTPSErrors=True,
handleSIGINT=False,
handleSIGTERM=False,
handleSIGHUP=False,
defaultViewport=None,
args=['--disable-setuid-sandbox',
'--no-sandbox',
'--ignore-certificate-errors',
'--disable-gpu',
'--disable-gpu-sandbox',
'--start-maximized'
]
)
pages = await browser.pages()
page = pages[0]
# 是否启用JS,enabled设为False,则无渲染效果
await page.setJavaScriptEnabled(enabled=True)
await page.setViewport(viewport={'width': 1200, 'height': 800})
await page.evaluateOnNewDocument(
'() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }')
await page.evaluateOnNewDocument("() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [] }) }")
await page.evaluateOnNewDocument(
"() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['zh-CN','zh] }) }")
await page.setUserAgent(
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36')
await page.goto(url, {'timeout': 5000, 'waitUntil': 'load'})
page_source = await page.content()
return page_source
except Exception as e:
<p>
# app_logger.error('账号:%s, 登录错误:%s' % (username, e))
print(e)
return -1
finally:
if page is not None:
# await page.waitFor(1000)
await page.close()
if browser is not None:
await browser.close()
async def get_data(url, continue_number=0):
"""解析文章源码,提取视频,文字,图片等信息"""
try:
page_source = await get_page_source(url)
# 视频处理,及视频封面
video_message_id_ = re.findall('tt-videoid="(.*?)"', page_source)
video_cover_ = re.findall('tt-poster="(.*?)"', page_source)
if len(video_message_id_) > 0 and len(video_cover_) > 0:
video_message_id = video_message_id_[0]
video_url = await get_video_url_id(video_message_id, url)
video_cover = await download_video_cover(video_cover_[0], url)
except Exception as e:
if continue_number < continue_num:
print(e)
# app_logger.error('function get_data error: %s' % e)
continue_number += 1
video_address = await get_data(url, continue_number)
return video_address
else:
# app_logger.error('function get_data : %s exceed maximum retry' % url)
return -1
async def get_video_url_id(video_id, article_url, continue_number=0):
"""解析视频main_url"""
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/83.0.4103.116 Safari/537.36'}
data_url = 'https://i.snssdk.com/video/urls/1/toutiao/mp4/{}'.format(video_id)
try:
async with aiohttp.ClientSession(connector=TCPConnector(verify_ssl=False), timeout=timeout) as session:
async with session.get(data_url, headers=header) as resp:
response = await resp.json()
if response['message'].strip() == "success":
data = response['data']['video_list']
keys = data.keys()
if 'video_3' in keys:
main_url = data['video_3']['main_url']
video_url = await get_video_url(main_url)
video_url_oss = await download_video(video_url, article_url)
return video_url_oss
elif 'video_3' not in keys and 'video_2' in keys:
main_url = data['video_3']['main_url']
video_url = await get_video_url(main_url)
video_url_oss = await download_video(video_url, article_url)
return video_url_oss
else:
main_url = data['video_3']['main_url']
video_url = await get_video_url(main_url)
video_url_oss = await download_video(video_url, article_url)
return video_url_oss
except Exception as e:
if continue_number < continue_num:
print(e)
# app_logger.error('function get_data error: %s' % e)
continue_number += 1
video_address = await get_data(url, continue_number)
return video_address
else:
# app_logger.error('function get_data : %s exceed maximum retry' % url)
return -1
async def get_video_url(main_url, continue_number=0):
"""获取视频地址,js执行"""
try:
tt = """var c = new Array( - 1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 62, -1, -1, -1, 63, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, -1, -1, -1, -1, -1, -1, -1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, -1, -1, -1, -1, -1, -1, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, -1, -1, -1, -1, -1);
function e(t) {
var e, o, i, r, n, a, s;
for (a = t.length, n = 0, s = ""; a > n;) {
do e = c[255 & t.charCodeAt(n++)];
while (a > n && -1 == e);
if ( - 1 == e) break;
do o = c[255 & t.charCodeAt(n++)];
while (a > n && -1 == o);
if ( - 1 == o) break;
s += String.fromCharCode(e > 4);
do {
if (i = 255 & t.charCodeAt(n++), 61 == i) return s;
i = c[i]
} while ( a > n && - 1 == i );
if ( - 1 == i) break;
s += String.fromCharCode((15 & o) > 2);
do {
if (r = 255 & t.charCodeAt(n++), 61 == r) return s;
r = c[r]
} while ( a > n && - 1 == r );
if ( - 1 == r) break;
s += String.fromCharCode((3 & i)