抓取明日头条的个人采集夹目录

优采云发布时间: 2020-08-21 05:15

　　抓取明日头条的个人采集夹目录

　　在明日头条采集了好多视频，文章什么的，通过头条的界面查看相当不便捷，由于形成了要保存到本地的看法。

　　由是用python写了一个爬虫，可以抓取个人的明日头条的采集夹内的内容到本地，并保存为excel文件和html文件，方便检阅。同时支持后续更新，自动添加新的采集夹条目，不会每次都去完整抓取。

　　不抓不知道，一抓吓一跳，居然有4000多条数据，晕。

　　总述登陆

　　登录使用了cookie的方法，即是须要从浏览器里复制出已登入用户的cookie信息，供python使用

　　数据结构

　　class Record:

'一条收藏夹记录'

def __init__(self,title,url,tag,repin_time,behot_time):

self.title = title

self.url = url

self.tag = tag

self.repin_time = repin_time

self.behot_time = behot_time

class FavPage:

'代表一个页面'

def __init__(self,has_more,next_page_code,Records):

self.has_more = has_more

self.next_page_code = next_page_code

self.Records = Records

　　抓取

　　使用python 的urllib库

　　def getUrl(url):

try:

response = requests.get(url,headers=header,timeout=3)

if response.status_code == 200:

return response.text

return None

except Exception as e:

print('Error occurred, retry ',str(e),' ',url)

#return None

　　分析

　　使用python的json库

　　保存

　　使用python的xlsx库

　　运行

　　linux文件格式，在linux下运行，windows下没装python。

　　总结

　　其实到过头来看一看，真是很简单的，整个程序不足100行。加上好多一些检测，辅助以后，也就不到200行。8 过有了这个东东，以后抓哪些都可以了，HHHH

　　分析

　　今日头条的采集夹通过一个url来访问，后面跟了一个参数，这个参数是一个时间戳，表明自此时间开始往前的采集夹条目，抓取20个。这是惟一的重要参数。

　　返回值是一段json数据。

　　问题

　　重复，频繁，快速的访问会导致访问被封。导致返回空数据，不过过一段时间都会恢复正常。

　　代码

　　有空把代码传上来

　　代码剖析与心得

0

2020-08-21

文章采集助手

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取明日头条的个人采集夹目录

0 个评论

发起人

AI时代内容工厂

抓取明日头条的个人采集夹目录

0 个评论

发起人

相关问题