今日头条文章采集软件( 关于江歌案的讨论和分析，你了解多少？)

优采云发布时间: 2021-11-19 06:22

　　今日头条文章采集软件(

关于江歌案的讨论和分析，你了解多少？)

　　用Python+Selenium爬取今天关于江歌案的头条文章

　　对于江歌案的讨论和分析，我当然是站在正义一边的，我不想重复那些结论。

　　不过，网上关于江歌案的文章讨论还是很多的。我也想知道别人的看法和舆论（笑）。但是你让我一个一个看，emmmmm……我做不到。

　　作为新时代文科生，写了个小爬虫，爬了一些文章下来。

　　本文文章将对此进行介绍。

　　一、准备

　　对于知道这一点的人来说可能没什么，但让我写一下。

　　首先，我们需要安装Python运行环境。如果您使用的是 macOS，Python 实际上已预装在您的系统中。如果是windows，可以在网上搜索python官网，下载对应的版本。

　　那我们就要用到很多扩展包的功能了。因此，最好安装一个 Python 工具套件。您只需要安装一次，以后会集成大部分功能。无需每次使用新功能时都零碎地安装新软件包。

　　Python包的种类很多，这里推荐的就是anaconda。该软件包的安装更加方便，扩展包的覆盖范围和结构更加合理。

　　请去下载anaconda包。向下滚动网页以找到下载位置。根据您的操作系统类型选择合适的版本。

　　选择3.X版本，这就是python的未来。

　　然后请打开cmd命令控制台（命令提示符）并键入以下命令。因为我不只是爬文章，我还有词云制作，所以我有很多包下载。

　　mkdir 演示

　　光盘演示

　　现在我们有一个名为 demo 的专用工作目录。接下来进入demo文件夹，因为我已经创建好了，所以如下图所示。

　　在命令行下，首先执行：pip install wheel

　　然后，执行：pip install wordcloud（这个包常用于词云制作，本文不会用到）

　　以及：pip install jieba（本文不会用到这个包）

　　然后执行：pip install selenium

　　同样的，我已经全部安装好了，我们需要的所有Python运行环境也终于安装好了。

　　请务必按照上述步骤进行操作，以确保每个步骤都已成功完成。否则，一旦省略，后面运行程序就会报错。

　　二、代码

　　在命令行下，执行：jupyter notebook

　　浏览器会自动打开并显示如下界面。

　　当然，那个文件本来就没有，所以这里不用管。这是我们刚刚努力的结果——安装好的运行环境。我还没有写程序。

　　返回 Jupyter Notebook 的主页。我们点击新建按钮来创建一个新的笔记本（Notebook）。在 Notebooks 中，请选择 Python 3 选项。

　　我们将被提示输入笔记本的名称。程序代码文件的名字，可以随便启动。然后出现了一个空白的笔记本供我们使用。

　　我开始爬行今天的头条新闻。

　　然后输入ipynb文件，看到文本框。

　　如下图所示，在文本框中输入以下代码。一定要逐字输入示例代码，空格数不能有差别。这个跟语言特性有关系，一时说不完。

　　这段代码导入了一些用于保存为 csv 文件、控制时间和控制 selenium 工具的库。然后我们定义了一个函数，将文本内容写入到 CSV 文件中。输入后按Shift+Enter执行。

　　当然没用了，因为main函数还没写。

　　然后，根据下图输入相应的代码。

　　本节用于打开Chromedriver，即谷歌浏览器驱动。提前下载并保存在相应的目录中。

　　这一段是写网址的。

　　其实就是今日头条下搜索“江格案”出来的页面地址。

　　跑。

　　如上图，Chrome是由selenium控制的，当打开相应的网页时，也会得到该页面的html文档。然后写下一段代码，得到这个页面。程序会自动打开相应的页面。

　　接下来是以下内容。在这里很难解释所有这些。简单的说，我找到了文章元素，进去获取了出版商id，发布时间，文章标题和文章内容。并使用上面定义的 towrite 函数写入文档。

　　输入后按Shift+Enter执行。

　　然后你很快就会发现桌面上出现了一个文档。

　　打开它，可以看到：

　　最后一个：

　　转换成txt文件：

　　三、结束不是结束

　　介绍虽然有点长，但实用的时间不会太长，只有十几行代码。可能感觉太麻烦了，但是如果把上面代码中range()中的值改成1000，那么就可以捕获到多少个文章。

　　当然，你也可以在那个时候改变框架。

　　原来后面还有一篇文章，就是利用文档的内容做一个词云抽取关键词，分析文本中的情感，看看人们的情感是如何随着事件的进展而变化的（这是为什么我要爬取发布时间的原因是），然后在时间序列上绘制舆情分布图……我也想试试SPSS社会统计软件的作用……

　　所以你可以知道很多事情。

　　但是考试快到了。

　　所以，我下次必须这样做。

　　（先放一张图）

　　注：本文写于2017年12月，从个人兴趣出发。现在升为CSDN的第一部作品（笑）。以后一定要认真学习，认真写博客监督自己。

0

2021-11-19

今日头条文章采集软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

今日头条文章采集软件( 关于江歌案的讨论和分析，你了解多少？)

0 个评论

发起人

AI时代内容工厂

今日头条文章采集软件( 关于江歌案的讨论和分析，你了解多少？)

0 个评论

发起人

相关问题