2020/4/26微博热搜榜采集结果采集步骤

优采云 发布时间: 2021-05-16 07:28

  2020/4/26微博热搜榜采集结果采集步骤

  采集场景

  在微博热搜索列表()中,您可以实时查看微博热搜索排名,热搜索关键词和热搜索数量。单击每个热门搜索关键词进入相关的微博列表页面。我们需要采集以上的数据。

  采集字段

  诸如“微博热搜索排名”,“热搜索关键词”,“热搜索编号”,“帐号”,“帖子内容”,“发布时间”,“源”,“转发数”,“评论数”,“点赞数”,“ 采集时间”和“页面网址。

  将鼠标移到图片上,右键单击并选择[在新选项卡中打开图片]以查看高清大图片

  下面的其他图片也是如此

  采集结果

  采集结果可以导出为Excel,CSV,HTML,数据库和其他格式。导出到Excel示例:

  教程说明

  本文的生产时间:2020/4/26 优采云版本:V 8. 1. 8

  如果由于网页的修订而导致URL或步骤无效,并且无法采集目标数据,请联系官方客户服务,我们将及时予以纠正。

  采集步骤

  步骤一、打开网页,然后使用[智能识别]生成规则

  步骤二、在所有微博列表中创建[循环列表],采集数据

  步骤三、修改[循环]的XPath,以删除冗余列表

  步骤四、修改字段的XPath,以准确采集所有字段

  步骤五、创建[loop-click元素],展开微博的全文

  步骤六、开始采集

  以下是具体步骤:

  步骤一、打开网页,然后使用[智能识别]生成规则

  1、自动识别热门搜索词列表

  在主页上输入微博热点搜索列表URL,单击[开始采集],优采云将自动打开网页。

  单击[自动识别网页],并成功在微博热搜索列表中识别列表数据。

  2、点击每个热门搜索词链接以跳至相关的微博列表页面

  在[操作提示]框中,选中“单击列表中的关键词 _链接和采集下一级页面”,以跳至其相关的微博列表页面。

  3、生成采集进程

  单击[Generate 采集设置]生成自动识别的列表数据,并将页面转换为采集处理,这对我们来说方便使用和修改。

  同时,它会跳到与第一个热门搜索词相关的微博列表页面。

  步骤二、在所有微博列表中创建[循环列表],采集数据

  1、创建[循环列表]

  通过以下3个连续步骤,创建一个[循环列表],采集微博列表中的所有数据

  ①在页面上选择包括所有字段的微博列表(微博是一个特殊的网页,您不能直接选择整个微博列表,可以先选择一个较小的范围,然后在操作提示框中连续单击

  按钮,直到所选区域扩展到整个列表为止,在示例中单击两次

  按钮)

  ②继续在页面上选择1个微博列表,包括所有字段(与①相同)

  ③单击[采集以下元素文本]

  特殊说明:

  a。经过上述三个连续步骤,[循环提取数据]的创建完成。 [循环]中的项目对应于页面上的所有微博列表。但这会将整个列表提取为一个字段。如果需要分别提取字段,请参见以下操作。

  b。我们为什么要通过以上三个步骤来设置[循环提取数据]?点击查看详情

  c。选择范围后,在操作提示框中,单击

  The

  按钮可以扩展所选​​的级别。可以连续单击多次,每次单击都会将所选范围扩大一级。

  2、提取微博列表中的字段

  在循环的当前项目(带有红色框的框中)中,选择文本,然后在操作提示框中,选择[采集元素文本]。

  可以通过这种方式提取文本字段。在此示例中,提取了诸如帐号,发布内容,发布时间,来源,转发数,评论数,点赞数,当前采集时间和页面URL之类的字段。

  特殊说明:

  a。请注意,您必须在循环的当前项目中提取字段(当前项目将以红色框出)以与循环形成链接。否则,它将重复采集一条特定的数据,该数据无法与循环链接。

  3、提​​取特殊字段,编辑字段

  在[当前数据页面预览]中,单击[+]按钮以提取采集时间和页面URL。

  进入[提取列表数据]设置页面,您可以删除冗余字段,修改字段名称,移动字段顺序等。

  4、格式化的数据

  [转发数量]和[评论数量]这两个字段是特殊的。默认情况下,提取的内容具有带标题的重复部分,并且可以通过格式化数据来删除重复的部分。

  如果您不介意重复操作,则可以跳过此步骤。

  [转发次数]格式:单击字段旁边的

  按钮,选择[格式数据]→单击[添加步骤]→[正则表达式匹配],输入正则表达式[0-9] +,然后保存。仅数字匹配,并且前面的[转发]也将被删除。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线