采集规则 采集 data-src Excel教程Excel函数Excel制作表格Excel2010/9/28

优采云 发布时间: 2021-08-04 07:23

  采集规则 采集 data-src Excel教程Excel函数Excel制作表格Excel2010/9/28

  采集scene

  打开B站详情页,采集video详情页数据。

  示例网址:

  采集Field

  标题、时长、发布时间、总播放次数、总发布次数、发布者、币种、采集、点赞数、分享数、视频介绍、视频标签、评论数

  

  点击查看高清大图,下图同理。

  采集Result

  采集 结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例:

  

  教程说明

  本文制作时间:2020/9/28 优采云版本:V8.1.22

  如因网页改版导致网址或步骤无效,无法采集到目标数据,请联系官方客服,我们会及时更正。

  采集Steps

  步骤一、打开网页

  步骤二、设置页面滚动

  步骤三、提取数据

  步骤四、rule优化

  步骤五、Start采集

  具体步骤如下:

  步骤一、打开网页

  1、打开网页

  点击首页左上角的【新建】-【自定义任务】。 URL输入界面默认为【手动输入】。将复制的一批相似网址粘贴到网址输入框中,点击【保存网址】,优采云内置的浏览器会自动打开网页。

  同时可以看到[loop-open web page]这一步已经在过程中自动创建了。

  示例中输入的网址为:

  

  特别说明:

  一个。手动输入的 URL 数量不应超过 10,000。如果url超过10000个,请选择【从文件导入】。详情请参考教程网址输入升级

  B.打开网页后,如果开始启动【自动识别】,请点击【不再自动识别】或【取消识别】将其关闭。因为本文不适合使用【自动识别】。

  c. 【自动识别】适用于自动识别网页列表、滚动、翻页。识别成功后可以直接启动采集获取数据。详情请点击查看【自动识别】教程

  步骤二、设置滚动

  选择【打开网页】设置,勾选【页面加载后向下滚动】,滚动方式为【直接滚动到底部】,滚动次数为3次,每次间隔1s。

  

  特别说明:

  一个。设置中的滚动次数和时间间隔,请根据采集要求和网页加载条件进行设置,它们不是一成不变的,详情请点击查看处理滚动加载数据的网页教程

  步骤三、提取数据

  1、采集Field

  采集Title、时长、发布时间、总播放次数、总弹数、发布者、币种、采集、点赞、分享、视频介绍、视频标签、评论等字段。

  

  2、编辑字段

  在【当前数据预览】面板中,依次修改必填字段的字段名称。

  

  3、设置字段

  直接抓取的“股数”字段有问题,需要对字段进行格式化。

  进入【提取数据】步骤,选择【格式化数据】→【添加步骤】→【替换】→将【动态微博...分享】替换为【空】,留下我们要分享的版块号。

  最后点击【应用】保存。

  

  特别说明:

  一个。什么是数据格式化?数据采集下来后,有时格式不是我们想要的,或者我们只是想从一段数据中提取特定的数据,可以通过优采云的【格式数据】功能来实现。详情请点击查看数据格式化教程。

  4、Modify field Xpath

  为了准确地采集到达所有相似页面的[publisher]字段,我们需要修改这个字段的XPath。

  进入【提取数据】设置页面,找到【发布者】字段,点击

  

  按钮,进入【自定义定位元素方法】设置页面,修改XPath为://div[@class="name"]/a[1],然后点击【应用】保存。

  

  步骤四、rule优化

  等待5s-10s后执行[循环URL]、[循环中打开网页]、[循环翻页]、[循环列表]、[提取列表数据]。

  【点击翻页】设置等待3s执行,Ajax加载超时7s,点击【Apply】保存。

  

  步骤五、Start采集

  1、 单击 [采集] 和 [启动本地采集]。启动优采云后自动采集数据。

  

  特别说明:

  一个。 【本地采集】为采集使用自己的电脑,【云采集】使用优采云采集提供的云服务器,点击查看本地采集与云采集详细解释。

  2、采集 完成后,选择合适的导出方式导出数据。支持导出到 Excel、CSV、HTML、数据库等。这里导出到 Excel。数据示例:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线