网站文章自动采集(本文介绍使用优采云采集(以BBC的AsiaNews为例)的方法 )

优采云 发布时间: 2021-08-30 07:05

  网站文章自动采集(本文介绍使用优采云采集(以BBC的AsiaNews为例)的方法

)

  本文介绍如何使用优采云采集(以BBC亚洲新闻为例)。

  采集网站:

  采集的内容包括:文章title、文章text

  使用功能点:

  l分页列表和详细信息提取

  第一步:创建BBC英语文章采集task

  1)进入主界面,选择“自定义模式”

  

  2) 将采集的网址复制粘贴到网站输入框中,点击“保存网址”

  

  第 2 步:创建一个列表循环

  1)在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两个部分。选择页面第一张图片,系统会自动识别页面中的同类链接,选择“全选”

  

  2)选择“点击循环中的每个链接”

  

  3)设置超时和ajax滚动

  

  第 3 步:采集fiction 内容

  1)选择页面中采集的正文标题(选中的内容会变成绿色),选择“采集元素的文本”

  

  2)选择页面中采集的正文内容(选中的内容会变成绿色),全选,

  

  选择“采集元素的文本”

  

  3)设置合并字段,选择自定义数据字段,选择自定义数据合并方式,

  

  然后选择同一字段进行多次提取并合并为一行。

  

  

  4)修改字段名称

  

  5) 选择“启动本地采集”

  

  第四步:BBC英语文章数据采集并导出

  1)采集完成后会弹出提示,选择“导出数据。选择合适的导出方式”,导出采集好BBC中文文章data

  

  2)这里我们选择excel作为导出格式,导出数据如下图

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线