BBC英语文章采集
优采云 发布时间: 2020-08-06 08:32本文介绍了使用优采云采集的方法(以英国广播公司的《亚洲新闻》为例).
采集网站:
采集的内容包括: 文章标题,文章正文
使用功能点:
l分页清单和详细信息提取
第1步: 创建BBC英语文章采集任务
1)进入主界面,然后选择“自定义模式”
2)将要采集的URL复制并粘贴到网站输入框中,单击“保存URL”
第2步: 创建列表循环
1)在页面的右上角,打开“过程”以显示两个部分: “过程设计器”和“自定义当前操作”. 选择页面上的第一张图片,系统会自动识别页面中相同种类的链接,选择“全选”
2)选择“单击循环中的每个链接”
3)设置超时和ajax滚动
第3步: 采集新颖的内容
1)选择要在页面中采集的文本标题(所选内容将变为绿色),然后选择“采集此元素的文本”
2)选择要在页面中采集的文本内容(所选内容将变为绿色),选择全选,
选择“采集此元素的文本”
3)设置合并字段,选择自定义数据字段,选择自定义数据合并方法,
然后选择同一字段进行多次提取,并将它们合并为一行.
4)修改字段名称
5)选择“开始本地采集”
第4步: BBC英语文章数据采集和导出
1)采集完成后,将弹出提示,选择“导出数据. 选择”适当的导出方法”以导出采集的BBC英文文章数据
2)在这里,我们选择excel作为导出格式,数据将如下所示导出