文章定时自动采集(一个采集股票网站-同花顺行情中心()(组图) )
优采云 发布时间: 2021-09-06 04:28文章定时自动采集(一个采集股票网站-同花顺行情中心()(组图)
)
*敏*感*词*瞬息万变,如何采集?
优采云支持定时采集,带来实时数据同步的流畅体验。
以下为采集Stock网站-通华顺行情中心*敏*感*词*完整案例。
本文介绍优采云采集同花顺报价中心*敏*感*词*的使用方法
采集网站:/#refCountId=db_509381c1_860
使用功能点:
AJAX 点击和翻页
第一步:创建采集task
1)进入优采云客户端主界面,点击“自定义采集”
2)将采集的网站URL复制粘贴到输入框中,点击“保存URL”
第 2 步:创建翻页循环
1) 系统会自动打开网页。向下滚动到页面底部,然后单击“下一页”按钮。在右侧的操作提示框中,选择“循环点击下一页”,创建翻页循环
注意:页面右上角有一个“处理”按钮,可以根据需要开启或关闭。打开后会如上显示;关闭后只显示页面底部的浏览器部分
2)由于本网页涉及Ajax技术,需要设置一些高级选项。选择“点击元素”这一步,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“5秒”(时间需要根据网页情况设置,设置时间>网页加载时间可以)
备注:AJAX是一种延迟加载和异步更新的脚本技术。通过后台与服务器的少量数据交换,可以在不重新加载整个网页的情况下更新网页的某一部分。
性能特点:当你点击网页上的一个选项时,网站的大部分网址不会改变;湾网页未完全加载,只是部分加载了数据并发生了更改。
验证方法:点击操作后,URL输入栏在浏览器中不会出现加载状态或转动状态。
第 3 步:创建一个列表循环并提取数据
重要说明:示例页面刷新速度更快。创建列表循环的整个步骤必须在下一页刷新之前完成。否则页面刷新会中断循环列表的创建。
1)移动鼠标选择页面中的第一个单元格。在操作提示框中,点击右下角的展开选择按钮
2)可以看到页面的第一行被选为整个元素,第一行的每一个数据都被系统识别为一个子元素。在操作提示框中选择“选择子元素”
3)系统继续自动识别页面上的其他20组相似元素。在操作提示框中选择“全选”创建列表循环
4) 可以看到页面上的所有子元素都被选中并变成了绿色。在右侧的操作提示框中,出现字段预览表单,选择“采集数据”
5) 如图所示位置,选择对应的字段,可以自定义字段的命名。完成后,修改完成后点击“确定”
6)点击“Start采集”,选择“Start Local采集”
备注:本地采集占用采集的当前计算机资源。如果有采集时间要求或者当前电脑长时间无法进行采集,可以使用cloud采集功能,在网络采集上进行cloud采集,无需当前电脑的支持,电脑可以关机,可以设置多种设置云节点分配任务,10个节点相当于10台电脑给你分配任务采集,速度降低到十分之一原速度,采集收到的数据可以在云端存储三个月,随时可以导出操作。
第四步:数据采集并导出
1)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好数据
2)这里我们选择excel作为导出格式,导出数据如下图