BBC英语文章采集

优采云 发布时间: 2020-08-06 08:32

  本文介绍了使用优采云采集的方法(以英国广播公司的《亚洲新闻》为例).

  采集网站:

  采集的内容包括: 文章标题,文章正文

  使用功能点:

  l分页清单和详细信息提取

  第1步: 创建BBC英语文章采集任务

  1)进入主界面,然后选择“自定义模式”

  

  2)将要采集的URL复制并粘贴到网站输入框中,单击“保存URL”

  

  第2步: 创建列表循环

  1)在页面的右上角,打开“过程”以显示两个部分: “过程设计器”和“自定义当前操作”. 选择页面上的第一张图片,系统会自动识别页面中相同种类的链接,选择“全选”

  

  2)选择“单击循环中的每个链接”

  

  3)设置超时和ajax滚动

  

  第3步: 采集新颖的内容

  1)选择要在页面中采集的文本标题(所选内容将变为绿色),然后选择“采集此元素的文本”

  

  2)选择要在页面中采集的文本内容(所选内容将变为绿色),选择全选,

  

  选择“采集此元素的文本”

  

  3)设置合并字段,选择自定义数据字段,选择自定义数据合并方法,

  

  然后选择同一字段进行多次提取,并将它们合并为一行.

  

  

  4)修改字段名称

  

  5)选择“开始本地采集”

  

  第4步: BBC英语文章数据采集和导出

  1)采集完成后,将弹出提示,选择“导出数据. 选择”适当的导出方法”以导出采集的BBC英文文章数据

  

  2)在这里,我们选择excel作为导出格式,数据将如下所示导出

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线