采集工具(微博热热搜词采集结果采集步骤介绍及详细步骤详解)
优采云 发布时间: 2022-02-10 13:24采集工具(微博热热搜词采集结果采集步骤介绍及详细步骤详解)
采集场景
在微博热搜榜()上,可以实时查看微博热搜排名、热搜关键词和热搜号。点击各个热搜关键词,进入其相关微博列表页面。我们需要采集上面的数据。
采集字段
微博热搜排名、热搜关键词、热搜数、账号、发布内容、发布时间、来源、转发数、评论数、点赞数、采集时间、页面网址。
将鼠标放在图像上,单击鼠标右键,然后选择[在新选项卡中打开图像]以查看高分辨率大图
下面的其他图片也是如此
采集结果
采集结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例:
教程说明
本文制作时间:2020/4/26优采云版本:V8.1.8
如因网页改版导致网站或步骤失效,无法采集目标数据,请联系官方客服,我们会及时更正。
采集步骤
Step一、打开网页,使用【智能识别】生成规则
步骤二、创建一个【循环列表】,采集所有微博列表中的数据
Step三、修改[loop]的XPath,去除冗余列表
步骤四、修改字段的XPath以准确采集所有字段
Step 五、 创建【循环点击元素】,展开微博全文
步骤六、开始采集
以下是具体步骤:
Step一、打开网页,使用【智能识别】生成规则
1、自动识别热搜词列表
在首页输入微博热搜榜网址,点击【开始采集】,优采云会自动打开网页。
点击【自动识别网页】,成功识别微博热搜榜中的榜单数据。
2、点击各个热搜词链接跳转到其相关微博列表页面
在【操作提示】框中,勾选“点击列表中的关键词_链接和采集下一级页面”跳转到其相关的微博列表页面。
3、生成采集 进程
点击【生成采集设置】,自动识别的列表数据和翻页都会生成为采集进程,方便我们使用和修改。
同时会跳转到第一个热搜词相关的微博列表页面。
步骤二、创建一个【循环列表】,采集所有微博列表中的数据
1、创建一个[循环列表]
通过以下3个连续步骤,创建一个【循环列表】,采集所有微博列表中的数据
① 在页面上选择一个微博列表,包括所有字段(微博是一个特殊页面,不能直接选择整个微博列表,可以先选择一个较小的范围,然后在操作提示框中连续点击
按钮,直到所选区域扩展到整个列表,在示例中单击了两次
按钮)
②继续在页面选择1条微博列表,包括所有字段(同①)
③ 点击【采集下面的元素文字】
特别说明:
一个。经过以上3个连续步骤,【循环提取数据】就创建完成了。[圈子]中的项目对应页面上的所有微博列表。但这会将整个列表提取为一个字段。如果需要单独提取字段,请看下面的操作。
湾。为什么可以通过以上3个步骤建立【Cycle-Extract Data】?点击查看更多细节
C。选择范围后,在操作提示框中,点击
按钮将所选图层扩大一层。您可以连续单击多次,每次单击都会将所选范围扩大一级。
2、提取微博列表中的字段
在循环的当前项(红框)中,选择文本,在操作提示框中,选择[采集本元素文本]。
可以通过这种方式提取所有文本字段。在该示例中,提取了帐号、发布内容、发布时间、来源、转发次数、评论数、点赞数、当前采集时间和页面URL等字段。
特别说明:
一个。请注意,该字段必须从循环的当前项中提取出来(当前项将用红色框起来),以形成与循环的链接。否则会重复某条特定的数据采集,无法与循环链接。
3、提取特殊字段,编辑字段
在【当前数据页面预览】中,点击【+】按钮,提取采集时间和页面URL。
进入【提取列表数据】设置页面,可以删除冗余字段、修改字段名称、移动字段顺序等。
4、格式化数据
[转发次数] 和 [评论次数] 这两个字段是特殊的。默认提取的内容与表头有重复,可以通过格式化数据去除重复。
如果您不介意重复,则可以跳过此步骤。
[转发次数] 格式:点击后面的字段
按钮,选择【格式化数据】→点击【添加步骤】→【正则表达式匹配】,输入正则表达式[0-9]+,保存。仅匹配数字,并删除前面的 [forward]。