网页信息抓取软件(一个网页数据能采集到哪些数据(1)_国内_光明网(组图))
优采云 发布时间: 2021-10-13 16:06网页信息抓取软件(一个网页数据能采集到哪些数据(1)_国内_光明网(组图))
采集可以从网页数据中得到什么数据
刚接触数据采集的同学可能会有这样的疑问:哪些网页数据可以是采集?
简单地说,互联网收录了丰富的开放数据资源。这些直接可见的互联网公开数据都可以是采集,只是采集的难易程度存在差异。具体到数据类型,大数据的数据主要是网络日志、视频、图片、地理位置等各种网络信息,可以通过各种方式实现采集。
我们可以使用采集工具高效便捷的实现各种网页和各类网页数据采集。优采云是一个可视化的网页数据采集器,可以是采集网页的99%。以下是豆瓣电影短评的完整示例。
采集网站:
第一步:创建采集任务
1)进入主界面,选择“自定义模式”
采集可以从网页数据中得到什么数据 图1
2)将采集的网址复制粘贴到网站的输入框中,点击“保存网址”
采集可以从网页数据中得到什么数据 图2
第 2 步:创建翻页循环
1)在页面右上角,打开“流程”显示两个部分:“流程设计器”和“自定义当前操作”。打开网页后,下拉页面,找到并点击“更多短评”按钮,选择“点击此链接”
采集可以从网页数据中得到什么数据 图3
2) 将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,
选择“更多操作”
采集可以从网页数据中得到什么数据 图4
选择“循环点击单个链接”建立翻页循环
采集可以从网页数据中得到什么数据 图5
第 3 步:创建列表循环并提取数据
移动鼠标选择页面上的第一个电影评论块。系统会识别该块中的子元素,在操作提示框中选择“选择子元素”
采集可以从网页数据中得到什么数据 图6
系统会自动识别页面上其他相似元素,在操作提示框中选择“全选”建立列表循环
采集可以从网页数据中得到什么数据 图7
3) 我们可以看到页面上第一个电影评论块的所有元素都被选中并变成了绿色。选择“采集以下数据”
采集可以从网页数据中得到什么数据 图8
4)选择一个字段并点击垃圾桶图标删除不需要的字段
采集可以从网页数据中得到什么数据 图9
5) 字段选择完成后,选择对应的字段,自定义字段的命名。完成后,点击左上角的“保存并启动”