分享文章:楚江数据：新浪微博内容数据采集爬虫怎么写

优采云发布时间: 2022-09-25 21:07

　　简介：楚江数据团队提供爬虫和数据（文字、图片、电话、邮箱）、手机APP（包括客户提供的电商、社交网站、公众号、论坛等类型）的定制开发、文档等）批处理采集服务。无需学习编程或编写代码，我们直接提供采集好的数据或编写的程序。

　　在不同的论坛和问答中，我们经常会在新浪微博上遇到数据采集爬虫程序怎么写，或者完成某个部分后怎么帮忙。楚江数据结合线上数据整理了几个微博爬虫开源项目。

　　SinaSpider- 基于scrapy和redis的分布式微博爬虫。SinaSpider主要抓取新浪微博的个人信息、微博数据、关注者和关注者。数据库设置Information、Tweets、Follows、Fans四个表。爬虫框架使用Scrapy，使用scrapy_redis和Redis实现分布式。本项目实现了将单机新浪微博爬虫改造成分布式爬虫。

　　sina_reptile- 这是一个关于新浪微博的爬虫。使用python开发，修改了sdk中的bug。存储在mongodb中，实现多进程爬取任务。获取新浪微博1000w用户的基本信息以及每个爬取用户最近发布的50条微博，python编写，多进程爬取，存储在mongodb中

　　sina_weibo_crawler- 基于urllib2和beautifulSoup的微博爬虫系统。使用urllib2和beautifulsoup爬取新浪微博，数据库使用mongodb，原创关系存txt文件，原创内容存csv格式，然后直接插入mongodb数据库

　　sina-weibo-crawler - 新浪微博爬虫，方便扩展. WCrawler.crawl() 函数只需要一个 url 参数。返回的用户fans和followers里面都有url，可以扩展向外爬，也可以自定义一些过滤规则。

　　weibo_crawler - 基于 Python、BeautifulSoup、mysql 微博搜索结果的爬虫工具。该工具使用模拟登录来抓取微博搜索结果。

　　SinaMicroblog_Creeper-Spider_VerificationCode-新浪微博爬虫，获取每个用户和关注者，粉丝的用户id保存在xml文件，BFS中，可以模拟登录，模拟登录中的验证码会被抓取给用户输入。

　　不过在这之前要了解一些函数和语法药物，比如list、dict、slice、条件判断、文件读写操作等；必须具备网页基础知识和语言分析能力；开发者工具会熟练使用；

　　官方网站：

　　汇总:抖音爬虫，数据采集：热搜、话题抓包分析，python爬虫抖音

　　抖音的热搜榜

　　一：可以通过抓包工具直接获取接口

　　复制获取的接口地址（简体）：然后可以直接请求获取热搜数据。

　　2：通过热搜分享页面获取界面点击右上角分享选项，复制链接，用浏览器打开。

　　在浏览器打开后/share/billboard/

　　接口地址也可以获取。可以直接发起get请求/web/api/v2/hotsearch/billboard/word/

　　热搜下对应的话题数据

　　我们点击一个话题，在热搜下找到对应的话题数据：右上角的播放数据在/aweme/v1/hot/search/list/?&source=3&os_api=23&version_code=860

　　我们通过寻找其他数据的接口复制了链接（简化）：吴亦凡脖子我们有我们想要的数据，比如当前话题的参与者总数，我们可以直接GET请求接口来解析数据。

　　热搜的数据很容易获取，但是目前针对指定主题，一些加密参数还没有研究和理解。欢迎留言交流。

　　但是为了实现主题数据的抓取，我不得不另谋出路。没想到又找到了一个界面。

　　指定主题的数据获取方式

　　以话题为例：

　　我们需要的是主题对应的观看次数和视频数。通过抓包发现如下接口：/aweme/v1/challenge/detail/?query_type=0&ch_id=81672

　　这里需要Ch_id来获取我们需要的数据。经过一段时间的分析，如何轻松快速地得到这个ch_id。我发现：ch_id: 81672 为主题“来自地球”，可以在相关用户的详细信息中找到。

　　那么老办法，获取共享页面的链接，从浏览器打开

0

2022-09-25

文章内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

分享文章:楚江数据：新浪微博内容数据采集爬虫怎么写

0 个评论

发起人

AI时代内容工厂

分享文章:楚江数据：新浪微博内容数据采集爬虫怎么写

0 个评论

发起人

相关问题