分享文章:楚江数据:新浪微博内容数据采集爬虫怎么写
优采云 发布时间: 2022-09-25 21:07分享文章:楚江数据:新浪微博内容数据采集爬虫怎么写
简介:楚江数据团队提供爬虫和数据(文字、图片、电话、邮箱)、手机APP(包括客户提供的电商、社交网站、公众号、论坛等类型)的定制开发、文档等)批处理 采集 服务。无需学习编程或编写代码,我们直接提供采集好的数据或编写的程序。
在不同的论坛和问答中,我们经常会在新浪微博上遇到数据采集爬虫程序怎么写,或者完成某个部分后怎么帮忙。楚江数据结合线上数据整理了几个微博爬虫开源项目。
SinaSpider- 基于scrapy和redis的分布式微博爬虫。SinaSpider主要抓取新浪微博的个人信息、微博数据、关注者和关注者。数据库设置Information、Tweets、Follows、Fans四个表。爬虫框架使用Scrapy,使用scrapy_redis和Redis实现分布式。本项目实现了将单机新浪微博爬虫改造成分布式爬虫。
sina_reptile- 这是一个关于新浪微博的爬虫。使用python开发,修改了sdk中的bug。存储在mongodb中,实现多进程爬取任务。获取新浪微博1000w用户的基本信息以及每个爬取用户最近发布的50条微博,python编写,多进程爬取,存储在mongodb中
sina_weibo_crawler- 基于urllib2和beautifulSoup的微博爬虫系统。使用urllib2和beautifulsoup爬取新浪微博,数据库使用mongodb,原创关系存txt文件,原创内容存csv格式,然后直接插入mongodb数据库
sina-weibo-crawler - 新浪微博爬虫,方便扩展. WCrawler.crawl() 函数只需要一个 url 参数。返回的用户fans和followers里面都有url,可以扩展向外爬,也可以自定义一些过滤规则。
weibo_crawler - 基于 Python、BeautifulSoup、mysql 微博搜索结果的爬虫工具。该工具使用模拟登录来抓取微博搜索结果。
SinaMicroblog_Creeper-Spider_VerificationCode-新浪微博爬虫,获取每个用户和关注者,粉丝的用户id保存在xml文件,BFS中,可以模拟登录,模拟登录中的验证码会被抓取给用户输入。
不过在这之前要了解一些函数和语法药物,比如list、dict、slice、条件判断、文件读写操作等;必须具备网页基础知识和语言分析能力;开发者工具会熟练使用;
官方网站:
汇总:抖音爬虫,数据采集:热搜、话题抓包分析,python爬虫抖音
抖音的热搜榜
一:可以通过抓包工具直接获取接口
复制获取的接口地址(简体):然后可以直接请求获取热搜数据。
2:通过热搜分享页面获取界面点击右上角分享选项,复制链接,用浏览器打开。
在浏览器打开后/share/billboard/
接口地址也可以获取。可以直接发起get请求/web/api/v2/hotsearch/billboard/word/
热搜下对应的话题数据
我们点击一个话题,在热搜下找到对应的话题数据:右上角的播放数据在/aweme/v1/hot/search/list/?&source=3&os_api=23&version_code=860
我们通过寻找其他数据的接口复制了链接(简化):吴亦凡脖子我们有我们想要的数据,比如当前话题的参与者总数,我们可以直接GET请求接口来解析数据。
热搜的数据很容易获取,但是目前针对指定主题,一些加密参数还没有研究和理解。欢迎留言交流。
但是为了实现主题数据的抓取,我不得不另谋出路。没想到又找到了一个界面。
指定主题的数据获取方式
以话题为例:
我们需要的是主题对应的观看次数和视频数。通过抓包发现如下接口:/aweme/v1/challenge/detail/?query_type=0&ch_id=81672
这里需要Ch_id来获取我们需要的数据。经过一段时间的分析,如何轻松快速地得到这个ch_id。我发现:ch_id: 81672 为主题“来自地球”,可以在相关用户的详细信息中找到。
那么老办法,获取共享页面的链接,从浏览器打开