文章采集工具(本文介绍使用优采云采集(以BBC的AsiaNews为例)的方法 )
优采云 发布时间: 2021-12-01 10:09文章采集工具(本文介绍使用优采云采集(以BBC的AsiaNews为例)的方法
)
本文介绍如何使用优采云采集(以BBC亚洲新闻为例)。
采集网站:
采集的内容包括:文章标题,文章正文
使用功能点:
l 分页列表和详细信息提取
第一步:创建BBC英语文章采集任务
1)进入主界面,选择“自定义模式”
2)将采集的网址复制粘贴到网站的输入框中,点击“保存网址”
第 2 步:创建一个列表循环
1)在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两个部分。选择页面第一张图片,系统会自动识别页面中的同类链接,选择“全选”
2)选择“单击循环中的每个链接”
3)设置超时和ajax滚动
第三步:采集小说内容
1)在页面中选择采集的正文标题(选中的内容会变成绿色),选择“采集元素的文本”
2)选择你要采集的页面文字内容(选中的内容会变成绿色),选择全选,
选择“采集此元素的文本”
3) 设置合并字段,选择自定义数据字段,选择自定义数据合并方式,
然后为多个提取选择相同的字段并将它们合并为一行。
4)修改字段名
5)选择“启动本地采集”
第四步:BBC英文文章数据采集并导出
1)采集 完成后会弹出提示,选择“导出数据。选择合适的导出方式”,导出采集好的BBC英语文章数据
2)这里我们选择excel作为导出格式,导出数据如下图