内容采集(2021-07-02大数据挖掘与分析文章目录目录)
优采云 发布时间: 2022-04-18 08:25内容采集(2021-07-02大数据挖掘与分析文章目录目录)
2021-07-02大数据挖掘与分析
文章目录
前言
为了做出好看的词云,我们需要准备分词和词频的素材。本文的目的是利用优采云从百度搜索中抓取“苏东坡”的关键词相关内容,然后为苏东坡的评价做一个词云。
一、优采云 是什么?
优采云是一款简单易用、功能强大的网络爬虫工具,操作完全可视化,无需编写代码,内置海量模板,支持任意网络数据抓取。免费版支持本地采集,有限的数据导出(基本够用);专业版支持云采集、24*7采集、大数据导出、验证码识别等。这次采集我用的是免费版功能。
二、数据采集步骤1.确定要爬取的内容范围网站
我准备的采集是百度新闻,输入关键词'苏东坡'后搜索的内容。计划中的 采集 数量为数百条新闻。
我们先来看看网站。
(1)注意百度新闻搜索到的内容,点击单个链接后,元素框不同有问题。我的解决方法是提取网页的标题和所有文字内容。
(2)注意翻页,百度新闻翻页的特点是点击“下一页”。
2.生产采集数据流
设计 优采云custom采集 流程有两个关键点。一种是循环翻下一页,设置循环多少次才停止;另一种是在每个页面上循环遍历列表中10个网页的URL,输入每个URL后提取标题和文字内容。流程图主要包括循环翻页和循环列表,描述如下:
提取详情页数据,自动提取标题、文字等文章相关内容。
3.调整
实际操作中发现虽然逻辑正确,但无法进入下一页,只有采集10条数据,经检查,优采云软件自动设置Xpath为“下一页”的链接地址与百度搜索中真正的下一页对应的Xpath地址不同。通过google浏览器开发者工具输入小指针,当页面在第一页时,鼠标左键点击“下一页”按钮,右侧对应部分高亮显示,出现如下:
右键单击突出显示的部分,复制 Xpath,
“下一页”对应的Xpath地址为://*[@id="page"]/div/a[10]。而当页面在第2页时,下一页的Xpath是//*[@id="page"]/div/a[11],如果不注意这个问题,就会发生< @优采云仅采集第一页数据。修改后可以自动采集data。
总结
优采云的采集的功能非常强大和完善。需要注意的是,需要简单理解Xpath的含义,才能正确地从网页中提取相关内容。
分类:
技术要点:
相关文章: