汇总:如何采集抖音的数据,视频数据采集教程

优采云 发布时间: 2021-01-08 10:07

  汇总:如何采集抖音的数据,视频数据采集教程

  

  我们按照以下步骤模拟应用程序的操作:

  1.开始抖音。

  2.单击搜索按钮。

  3.输入搜索关键词(抖音用户ID),点击搜索。

  4.找到一个匹配的用户,单击“跟随”。

  5.单击系统推荐的“查看更多”以模拟屏幕上的多次向上滑动,直到加载数据为止(屏幕上出现“暂时不存在”)。

  同时,我们使用数据包捕获脚本(您可以使用Fiddler的Customize Rules或Mitmproxy)捕获并过滤URL中收录/ user / recommend /的HTTP响应数据,并从JSON数据用户信息(如下图所示)。

  

  抖音 App模拟操作脚本的核心代码如下:

  抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。

不过想要自己模拟一个有效的请求可不是那么容易了,因为它使用了签名机制,在所有请求中都有as和cp两个签名参数,除非得知签名算法否则我们无法构造出有效的请求。

这里我们使用模拟操作抖音App的方式,让App帮我们发出有效的请求,然后我们拦截服务器的HTTP应答数据,再从中提取我们感兴趣的信息。

下面结合一个实际的案例介绍下整个过程,根据客户的需求,要采集一些指定用户加关后的系统推荐“你可能感兴趣”的数据(如下图所示)用于商品营销。

点击“查看更多”可以看到更多的系统推荐用户列表数据,如下图所示。

我们按如下步骤模拟操作App:

1.启动抖音。

2.点击搜索按钮。

3.输入搜索关键词(抖音用户ID),点击搜索。

4.找到匹配的用户,点击关注。

5.点击系统推荐“查看更多”,模拟多次向上滑动屏幕,直至数据加载完毕(屏幕出现“暂时没有更多了”)。

于此同时,我们使用抓包脚本(可以使用Fiddler的Customize Rules,也可以使用Mitmproxy),捕获并过滤URL中含有/user/recommend/的HTTP应答数据,从JSON数据中提取系统推荐的用户信息(如下图所示)。

模拟操作抖音App的脚本核心代码如下所示:

view plaincopy to clipboardprint?

from com.dtmilano.android.viewclient import ViewClient

def search_douyin_for_recommend_user(douyin_id):

"""采集指定抖音账号的关注推荐数据

"""

log(u'准备采集"{}"对应的关注推荐数据'.format(douyin_id))

# 连设备

serialno = None

if serialno:

os.system('adb connect {}'.format(serialno or ''))

time.sleep(3)

device, serialno = ViewClient.connectToDeviceOrExit(serialno=serialno)

vc = ViewClient(device, serialno, autodump=False)

# 强制关闭抖音

log(u'强制关闭抖音.')

device.shell('am force-stop com.ss.android.ugc.aweme')

time.sleep(2)

# 启动抖音

log(u'启动抖音.')

device.shell('am start -n com.ss.android.ugc.aweme/.main.MainActivity')

time.sleep(5)

# 暂停视频播放

log(u'点击屏幕,暂停视频播放.')

device.touch(514, 1048)

# 点击搜索按钮

vc.dump()

search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/amj')

if search_btn:

log(u'点击搜索按钮,跳转到搜索页面.')

search_btn.touch()

vc.dump()

# 点击搜索输入框

search_input = vc.findViewById('com.ss.android.ugc.aweme:id/ad_')

if search_input:

log(u'点击搜索框,准备输入关键词.')

search_input.touch()

# 输入抖音ID

log(u'输入搜索关键词: {}.'.format(douyin_id))

device.type(douyin_id.encode('UTF-8'))

# 点击搜索按钮

search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/cp8')

if search_btn:

log(u'提交搜索.')

search_btn.touch()

time.sleep(2)

vc.dump()

## 切换到用户

#user_tab = vc.findViewWithText(u'用户')

#user_tab.touch()

# 找到匹配的

matches = []

def find_matches(view):

if view.getClass() == 'android.widget.TextView':

text = view.getText()

if douyin_id.lower() in text.lower():

# 找到匹配的了

log(u'找到匹配的: {}'.format(text))

matches.append(view)

else:

#print text

pass

vc.traverse(transform=lambda view: find_matches(view))

if matches:

# 有没有已关注按钮

btn = vc.findViewWithText(u'已关注')

if btn:

# 先取消关注

log(u'之前关注过,先取消关注.')

btn.touch()

time.sleep(1)

user_matched = matches[0]

log(u'点击进入个人主页.')

user_matched.touch()

time.sleep(1)

# 点关注

vc.dump()

follow_btn = vc.findViewById('com.ss.android.ugc.aweme:id/aei')

if follow_btn:

# 点击关注

log(u'点击关注')

follow_btn.touch()

time.sleep(1)

# 点击查看更多

vc.dump()

viewmore_btn = vc.findViewById('com.ss.android.ugc.aweme:id/bqn')

if viewmore_btn:

# 点击查看更多

log(u'点击查看更多系统推荐')

viewmore_btn.touch()

time.sleep(1)

i = 0

while True:

# 上滑动

device.drag((345, 1762), (345, 550), duration=100)

log(u'上滑以加载更多')

i += 1

if i % 5 == 0:

# 拖动10次判断一下是否还有更多

vc.dump()

if vc.findViewWithText(u'暂时没有更多了'):

log(u'暂时没有更多了, "{}"的关注推荐数据采集完毕.'.format(douyin_id))

# 采集成功了

return True

failed_tip = vc.findViewWithText(u'加载失败,点击重试')

if failed_tip:

log(u'加载失败,点击重试.')

failed_tip.touch()

else:

# 没有找到查看更多按钮

log(u'没有找到查看更多按钮')

else:

# 没有找到加关注按钮

log(u'没有找到加关注按钮')

else:

# 没有找到匹配的用户

log(u'没有找到匹配的用户')

else:

# 没有找到搜索提交按钮

log(u'没有找到搜索提交按钮.')

else:

# 没有找到搜索输入框

log(u'没有找到搜索输入框.')

else:

# 没有找到搜索按钮

log(u'没有找到搜索按钮.')

  以上脚本的运行屏幕截图如下:

  

  最后,附加一些捕获的样本数据:

  

  有关抖音,快手,小红书数据实时采集界面的更多信息,请检查以下文件:TiToData

  免责声明:本文档仅用于学习和参考,请勿将其用于非法目的!否则,后果自负。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线