采集规则 采集 data-src Excel教程Excel函数Excel制作表格Excel2010/9/28
优采云 发布时间: 2021-08-04 07:23采集规则 采集 data-src Excel教程Excel函数Excel制作表格Excel2010/9/28
采集scene
打开B站详情页,采集video详情页数据。
示例网址:
采集Field
标题、时长、发布时间、总播放次数、总发布次数、发布者、币种、采集、点赞数、分享数、视频介绍、视频标签、评论数
点击查看高清大图,下图同理。
采集Result
采集 结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例:
教程说明
本文制作时间:2020/9/28 优采云版本:V8.1.22
如因网页改版导致网址或步骤无效,无法采集到目标数据,请联系官方客服,我们会及时更正。
采集Steps
步骤一、打开网页
步骤二、设置页面滚动
步骤三、提取数据
步骤四、rule优化
步骤五、Start采集
具体步骤如下:
步骤一、打开网页
1、打开网页
点击首页左上角的【新建】-【自定义任务】。 URL输入界面默认为【手动输入】。将复制的一批相似网址粘贴到网址输入框中,点击【保存网址】,优采云内置的浏览器会自动打开网页。
同时可以看到[loop-open web page]这一步已经在过程中自动创建了。
示例中输入的网址为:
特别说明:
一个。手动输入的 URL 数量不应超过 10,000。如果url超过10000个,请选择【从文件导入】。详情请参考教程网址输入升级
B.打开网页后,如果开始启动【自动识别】,请点击【不再自动识别】或【取消识别】将其关闭。因为本文不适合使用【自动识别】。
c. 【自动识别】适用于自动识别网页列表、滚动、翻页。识别成功后可以直接启动采集获取数据。详情请点击查看【自动识别】教程
步骤二、设置滚动
选择【打开网页】设置,勾选【页面加载后向下滚动】,滚动方式为【直接滚动到底部】,滚动次数为3次,每次间隔1s。
特别说明:
一个。设置中的滚动次数和时间间隔,请根据采集要求和网页加载条件进行设置,它们不是一成不变的,详情请点击查看处理滚动加载数据的网页教程
步骤三、提取数据
1、采集Field
采集Title、时长、发布时间、总播放次数、总弹数、发布者、币种、采集、点赞、分享、视频介绍、视频标签、评论等字段。
2、编辑字段
在【当前数据预览】面板中,依次修改必填字段的字段名称。
3、设置字段
直接抓取的“股数”字段有问题,需要对字段进行格式化。
进入【提取数据】步骤,选择【格式化数据】→【添加步骤】→【替换】→将【动态微博...分享】替换为【空】,留下我们要分享的版块号。
最后点击【应用】保存。
特别说明:
一个。什么是数据格式化?数据采集下来后,有时格式不是我们想要的,或者我们只是想从一段数据中提取特定的数据,可以通过优采云的【格式数据】功能来实现。详情请点击查看数据格式化教程。
4、Modify field Xpath
为了准确地采集到达所有相似页面的[publisher]字段,我们需要修改这个字段的XPath。
进入【提取数据】设置页面,找到【发布者】字段,点击
按钮,进入【自定义定位元素方法】设置页面,修改XPath为://div[@class="name"]/a[1],然后点击【应用】保存。
步骤四、rule优化
等待5s-10s后执行[循环URL]、[循环中打开网页]、[循环翻页]、[循环列表]、[提取列表数据]。
【点击翻页】设置等待3s执行,Ajax加载超时7s,点击【Apply】保存。
步骤五、Start采集
1、 单击 [采集] 和 [启动本地采集]。启动优采云后自动采集数据。
特别说明:
一个。 【本地采集】为采集使用自己的电脑,【云采集】使用优采云采集提供的云服务器,点击查看本地采集与云采集详细解释。
2、采集 完成后,选择合适的导出方式导出数据。支持导出到 Excel、CSV、HTML、数据库等。这里导出到 Excel。数据示例: