通过关键词采集文章采集api(高清大图下文采集结果采集步骤介绍及详细步骤详解!)
优采云 发布时间: 2021-11-15 03:15通过关键词采集文章采集api(高清大图下文采集结果采集步骤介绍及详细步骤详解!)
采集场景
在微博热搜榜()中,可以实时查看微博热搜排名、热搜关键词和热搜数量。点击各个热搜关键词,进入相关微博列表页面。我们需要上面的数据。
采集字段
微博热搜排名、热搜关键词、热搜数、内容、发布时间、来源、采集数、转发数、评论数、点赞数、采集时间、页面网址字段。
鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图
这同样适用于下面的其他图片
采集结果
采集 结果可以导出为Excel、CSV、HTML、数据库等多种格式。导出到 Excel 示例:
教程说明
本文制作时间:2021/10/28 优采云 版本:V8.4.2
如因网页改版导致网址或步骤无效,无法采集目标数据,请联系官方客服,我们会及时更正。
采集步骤
步骤一、 打开网页,切换浏览模式登录,获取登录状态的cookie
步骤二、生成列表循环采集流程,点击进入详情页
步骤二、创建【循环列表】,采集微博列表中的所有数据
步骤三、 修改【Circular】的XPath,去除冗余列表
步骤四、修改字段的XPath以准确采集所有字段
步骤五、开始采集
以下是具体步骤:
步骤一、 打开网页,切换浏览模式登录,获取登录状态的cookie
1、获取登录状态cookie
在首页输入微博热搜榜网址,点击【开始采集】,优采云会自动打开网页。
点击切换
【浏览模式】,在浏览模式下点击页面登录按钮,跳转到扫码登录窗口,使用手机APP扫码登录,登录成功后关闭【浏览模式】,并在打开网页的步骤中勾选【高级设置】选择【使用指定的cookie】,然后点击获取当前页面的cookie,点击应用。
2、创建【循环列表】,采集热搜页面列表数据
①. 先选中页面第一个列表的第一个单元格,然后点击提示框右下角的【展开选择】
用于选择整行的按钮。(
效果是扩大了选择范围。当前选中的是一个单元格,点击
,选中范围扩大一级,即选中一行)
②. 在提示框中选择【选择子元素】。选择第一只股票中的特定字段,然后优采云自动识别页面上其他股票列表具有相同的[子元素](用红框框起来)。
③. 在提示框中选择【全选】。可以看到页面上股票列表中的所有子元素也都被选中并被绿色框框起来。
④. 在提示框中选择[采集数据]。这时候优采云会提取表单中的所有字段。
3、删除冗余字段并修改字段名称
这里的link字段没用,我们删掉,然后修改剩余字段的字段名(双击字段名修改)
4、点击红框中的关键词进入详情页(注意一定要在loop列表中配置,这样才能循环进入每个关键词详情页)
在循环的当前项中找到并选择关键词(用红框框起来),在弹出的操作提示框中选择【点击此链接】。
可以看到过程中生成了一步【点击元素】,优采云自动跳转到详情页,然后提取详情页数据。
步骤二、创建【循环列表】,采集微博列表中的所有数据
1、创建【循环列表】
通过以下连续3步,创建一个【循环列表】,采集微博列表中的所有数据
①在页面上选择1个微博列表,包括所有字段(微博是一个特殊的网页,不能直接选择整个微博列表,可以先选择一个较小的范围,然后在操作提示框中连续点击
按钮直到所选区域扩展到整个列表,在示例中单击两次
按钮)
②继续选择页面上的1个微博列表,包括所有字段(同①)
③ 点击【采集以下元素文字】
2、 提取微博列表中的字段
在循环的当前项(用红框框起来)中选择文本,在操作提示框中选择[采集元素文本]。
可以通过这种方式提取文本字段。示例中提取了内容、发布时间、来源、采集数、转发数、评论数、点赞数等字段。
特别说明:
一种。经过以上3个连续步骤,就完成了【Cycle-Extract Data】的创建。【周期】中的项目对应页面上的所有微博列表。但这会将整个列表提取为一个字段。如果需要单独提取字段,请看下面的操作。
湾 为什么我们可以通过以上3个步骤来设置【循环-提取数据】?详情请点击查看列表数据采集教程。
C。选择范围后,在操作提示框中,点击
用于扩展所选级别的按钮。可以连续点击多次,每次点击选择范围扩大一级。
特别说明:
一种。请注意,该字段必须从循环的当前项中提取(当前项将被红色框框起来),以形成与循环的链接。否则,某段具体数据会重复采集,无法与循环链接。
3、提取特殊字段,编辑字段
进入【提取列表数据】设置页面,可以删除冗余字段、修改字段名称(双击字段名称进行修改)、移动字段顺序等。
在【当前数据页预览】中,点击
, 可以添加提取采集时间和页面URL。
4、格式化数据
【转发数】和【采集数】【评论数】这三个字段比较特殊。提取的内容和表头默认是重复的,可以通过格式化数据去除重复的部分。
如果你不介意重复,你可以跳过这一步。
[转帖编号] 格式:点击字段后
按钮,选择【格式数据】→点击【添加步骤】→【正则表达式匹配】,输入正则表达式[0-9]+,然后保存。只匹配数字,去掉前面的[forward]。