大数据挖掘与分析文章目录(一)——优采云
优采云 发布时间: 2021-05-03 01:26大数据挖掘与分析文章目录(一)——优采云
大数据挖掘和分析
文章目录
前言
为了使单词云美观,我们需要准备用于单词分割和单词频率的材料。本文的目的是使用优采云从百度搜索中抓取关键词来搜索“苏东坡”的相关内容,然后为苏东坡的评估打个字云。
什么是一、 优采云?
优采云是一种易于使用,功能强大的Web爬网程序工具,完全可视化的操作,无需编写代码,内置大量模板,并支持任意网络数据捕获。免费版本支持本地采集,这是有限数量的数据导出(基本上足够);专业版支持云采集,24 * 7 采集,大数据导出,验证码识别等功能。这次采集我使用了免费版本功能。
二、 Data 采集步骤1.确定要抓取的内容范围网站
我为百度新闻准备了采集。我输入了关键词“ Su Dongpo”并搜索了内容。计划的采集数量是几百个新闻内容。
让我们先看一下网页。
(1)请注意百度新闻搜索的内容。单击单个链接后,网页存在元素框架不同的问题。我的解决方案是提取网页的标题和所有文本内容
([2)请注意翻页。百度新闻翻页的功能是单击“下一页”。
2.制作采集数据流
设计优采云自定义采集流程时有两个关键点。一种是重复单击下一页,并设置循环后停止多少次;否则,请执行以下步骤。另一种方法是在每个页面的列表中单击10个网页的URL,并在输入每个URL后提取标题和文本内容。该流程图主要包括循环翻页和循环列表,描述如下:
提取详细信息页面数据以自动提取标题,文本等文章相关内容。
3.调整
在实际操作中,我发现尽管逻辑正确,但是我无法进入下一页。只有采集 10条数据。检查后,优采云软件自动设置“下一页”链接的Xpath地址。它与百度搜索中实际下一页所对应的Xpath地址不同。通过Google浏览器开发者工具输入小指针。当页面位于第一页上时,用鼠标左键单击“下一页”按钮,右侧的相应部分将突出显示,并显示:
右键单击突出显示的部分并复制Xpath,
与“下一页”相对应的Xpath地址为:// * [@ id =“ page”] / div / a [10]。当页面位于第2页时,下一页的Xpath为// * [@@ =“ =”“” / div / a [11],如果您不注意此问题,则会发生优采云只能是采集数据的第一页。修改后,数据可以自动采集。
摘要
优采云的采集功能非常强大和完整。需要注意的是,有必要简要了解Xpath的含义,以便正确地从网页中提取相关内容。