内容采集(2021-07-02大数据挖掘与分析文章目录目录)

优采云 发布时间: 2022-04-18 08:25

  内容采集(2021-07-02大数据挖掘与分析文章目录目录)

  2021-07-02大数据挖掘与分析

  文章目录

  前言

  为了做出好看的词云,我们需要准备分词和词频的素材。本文的目的是利用优采云从百度搜索中抓取“苏东坡”的关键词相关内容,然后为苏东坡的评价做一个词云。

  一、优采云 是什么?

  优采云是一款简单易用、功能强大的网络爬虫工具,操作完全可视化,无需编写代码,内置海量模板,支持任意网络数据抓取。免费版支持本地采集,有限的数据导出(基本够用);专业版支持云采集、24*7采集、大数据导出、验证码识别等。这次采集我用的是免费版功能。

  二、数据采集步骤1.确定要爬取的内容范围网站

  我准备的采集是百度新闻,输入关键词'苏​​东坡'后搜索的内容。计划中的 采集 数量为数百条新闻。

  我们先来看看网站。

  (1)注意百度新闻搜索到的内容,点击单个链接后,元素框不同有问题。我的解决方法是提取网页的标题和所有文字内容。

  

  (2)注意翻页,百度新闻翻页的特点是点击“下一页”。

  

  2.生产采集数据流

  设计 优采云custom采集 流程有两个关键点。一种是循环翻下一页,设置循环多少次才停止;另一种是在每个页面上循环遍历列表中10个网页的URL,输入每个URL后提取标题和文字内容。流程图主要包括循环翻页和循环列表,描述如下:

  

  提取详情页数据,自动提取标题、文字等文章相关内容。

  3.调整

  实际操作中发现虽然逻辑正确,但无法进入下一页,只有采集10条数据,经检查,优采云软件自动设置Xpath为“下一页”的链接地址与百度搜索中真正的下一页对应的Xpath地址不同。通过google浏览器开发者工具输入小指针,当页面在第一页时,鼠标左键点击“下一页”按钮,右侧对应部分高亮显示,出现如下:

  

  右键单击突出显示的部分,复制 Xpath,

  

  “下一页”对应的Xpath地址为://*[@id="page"]/div/a[10]。而当页面在第2页时,下一页的Xpath是//*[@id="page"]/div/a[11],如果不注意这个问题,就会发生< @优采云仅采集第一页数据。修改后可以自动采集data。

  总结

  优采云的采集的功能非常强大和完善。需要注意的是,需要简单理解Xpath的含义,才能正确地从网页中提取相关内容。

  分类:

  技术要点:

  相关文章:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线