内容采集(2021-07-02大数据挖掘与分析文章目录目录)

优采云发布时间: 2022-04-18 08:25

　　2021-07-02大数据挖掘与分析

　　文章目录

　　前言

　　为了做出好看的词云，我们需要准备分词和词频的素材。本文的目的是利用优采云从百度搜索中抓取“苏东坡”的关键词相关内容，然后为苏东坡的评价做一个词云。

　　一、优采云是什么？

　　优采云是一款简单易用、功能强大的网络爬虫工具，操作完全可视化，无需编写代码，内置海量模板，支持任意网络数据抓取。免费版支持本地采集，有限的数据导出（基本够用）；专业版支持云采集、24*7采集、大数据导出、验证码识别等。这次采集我用的是免费版功能。

　　二、数据采集步骤1.确定要爬取的内容范围网站

　　我准备的采集是百度新闻，输入关键词'苏东坡'后搜索的内容。计划中的采集数量为数百条新闻。

　　我们先来看看网站。

　　（1）注意百度新闻搜索到的内容，点击单个链接后，元素框不同有问题。我的解决方法是提取网页的标题和所有文字内容。

　　(2）注意翻页，百度新闻翻页的特点是点击“下一页”。

　　2.生产采集数据流

　　设计优采云custom采集流程有两个关键点。一种是循环翻下一页，设置循环多少次才停止；另一种是在每个页面上循环遍历列表中10个网页的URL，输入每个URL后提取标题和文字内容。流程图主要包括循环翻页和循环列表，描述如下：

　　提取详情页数据，自动提取标题、文字等文章相关内容。

　　3.调整

　　实际操作中发现虽然逻辑正确，但无法进入下一页，只有采集10条数据，经检查，优采云软件自动设置Xpath为“下一页”的链接地址与百度搜索中真正的下一页对应的Xpath地址不同。通过google浏览器开发者工具输入小指针，当页面在第一页时，鼠标左键点击“下一页”按钮，右侧对应部分高亮显示，出现如下：

　　右键单击突出显示的部分，复制 Xpath，

　　“下一页”对应的Xpath地址为：//*[@id="page"]/div/a[10]。而当页面在第2页时，下一页的Xpath是//*[@id="page"]/div/a[11]，如果不注意这个问题，就会发生< @优采云仅采集第一页数据。修改后可以自动采集data。

　　总结

　　优采云的采集的功能非常强大和完善。需要注意的是，需要简单理解Xpath的含义，才能正确地从网页中提取相关内容。

　　分类：

　　技术要点：

2022-04-18

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集(2021-07-02大数据挖掘与分析文章目录目录)

0 个评论

发起人

AI时代内容工厂

内容采集(2021-07-02大数据挖掘与分析文章目录目录)

0 个评论

发起人

相关问题