自动采集文章内容(图片同理采集场景打开雪球网,页面显示雪球热帖列表)
优采云 发布时间: 2021-08-30 06:01自动采集文章内容(图片同理采集场景打开雪球网,页面显示雪球热帖列表)
采集scene
打开学球网,页面显示学球热帖列表,点击每个帖子的标题进入详情页,在采集detail页面查看数据内容。
采集field
帖子作者、标题、文章内容、发布时间、评论数、评论人、评论内容、评论时间等
点击查看高清大图,下图同理。
采集Result
采集 结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例:
教程说明
本文制作时间:2020/8/26 优采云Version:V8.1.22
如因网页改版导致网址或步骤无效,无法采集到目标数据,请联系官方客服,我们会及时更正。
采集Steps
第一步:打开网页
步骤二、设置页面滚动和[点击加载更多]
步骤三、创建[循环列表]
步骤四、采集详情页文章title、body等字段
步骤五、在评论区创建【循环列表】,采集所有评论内容,评论者等字段
步骤六、编辑字段
步骤七、Wait 设置执行前
步骤八、Start采集
具体步骤如下:
步骤一、打开网页
在首页【输入框】输入目标网址,点击【开始采集】,优采云会自动打开网页。
特别说明:
一个。打开网页后,如果开始启动【自动识别】,请点击【不再自动识别】或【取消识别】将其关闭。因为本文不适合使用【自动识别】。
B. 【自动识别】适用于自动识别网页列表、滚动、翻页。识别成功后可以直接启动采集获取数据。详情请点击查看【自动识别】教程
步骤二、设置页面滚动和[点击加载更多]
打开雪球网的网页后,我们观察到,默认情况下,页面上只显示了一些帖子。向下滚动到底部以加载更多帖子列表。
滚动到一定次数后(测试中大概10次左右,具体操作中需要的滚动次数以测试为准)出现【加载更多】按钮,然后需要点击【加载更多】 ] 按钮继续加载新帖子列表。
优采云中也需要相同的设置。
1、设置页面滚动
进入【打开网页】设置页面,点击【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【向下滚动一屏】,【滚动次数】为20次, [每个时间间隔] 2 秒并保存。
特别说明:
一个。设置中的滚动次数和时间间隔,请根据采集要求和网页加载条件进行设置,它们不是一成不变的,详情请点击查看处理滚动加载数据的网页教程
2、Settings 点击【加载更多】
①手动向下滚动页面,直到出现[加载更多]按钮
②点击【加载更多】按钮,在*敏*感*词*操作提示框中选择【循环点击单个链接】。
③ 进入【循环翻页】设置页面,点击【退出循环设置】,将循环执行次数设置为4次(我们需要设置合适的次数,可以根据需要灵活调整) 采集) 需要的数据量。
④ 进入【点击翻页】设置页面,点击【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【滚动到底部】,【滚动次数】为5次,[每间隔] 2 秒。
特别说明:
一个。为什么通过【加载更多】翻页时需要设置合适的翻页次数?将页面翻过一定数量的【加载更多】页面后,页面上会显示出大量的标题列表。这些列表在同一页面上,它们都将位于采集 的时间。如果同时定位太多列表,采集的速度会变慢,影响数据的正常采集。设置合理的翻页次数,控制同时定位的列表,保证数据正常采集。
B.设置中的滚动次数和时间间隔,请根据采集要求和网页加载条件进行设置,它们不是静态的,详情请点击查看处理滚动加载数据的网页教程
步骤三、创建[循环列表]
1、Create【循环点击元素】,点击进入每篇帖子的详情页
通过以下3个连续步骤,依次点击各个链接进入详情页:
①选择页面第一个帖子链接(这个页面比较特殊,大面积也是链接)
② 然后在页面上选择另一个帖子链接
③点击【循环点击各链接】进入第一篇文章详情页
2、调整过程
因为这个网页比较特殊,需要先点击【加载更多】,翻页后才能提取数据,所以需要把整个【循环列表】拖入【循环翻页】 .
然后点击流程中的【点击元素】步骤,进入第一篇帖子的详情页。
步骤四、采集详情页文章title、body等字段
选择页面上的文字,然后在操作提示框中点击【采集this element text】。
文本字段可以通过这种方式提取。在示例中,我们提取了文章title、作者、发表时间、正文等字段。
步骤五、在评论区创建【循环列表】,采集所有评论内容,评论者等字段
一个帖子中可能有多个评论。通过以下步骤,采集文章中的所有评论者和评论: