今日头条文章采集软件( 关于江歌案的讨论和分析,你了解多少?)
优采云 发布时间: 2021-11-19 06:22今日头条文章采集软件(
关于江歌案的讨论和分析,你了解多少?)
用Python+Selenium爬取今天关于江歌案的头条文章
对于江歌案的讨论和分析,我当然是站在正义一边的,我不想重复那些结论。
不过,网上关于江歌案的文章讨论还是很多的。我也想知道别人的看法和舆论(笑)。但是你让我一个一个看,emmmmm……我做不到。
作为新时代文科生,写了个小爬虫,爬了一些文章下来。
本文文章将对此进行介绍。
一、准备
对于知道这一点的人来说可能没什么,但让我写一下。
首先,我们需要安装Python运行环境。如果您使用的是 macOS,Python 实际上已预装在您的系统中。如果是windows,可以在网上搜索python官网,下载对应的版本。
那我们就要用到很多扩展包的功能了。因此,最好安装一个 Python 工具套件。您只需要安装一次,以后会集成大部分功能。无需每次使用新功能时都零碎地安装新软件包。
Python包的种类很多,这里推荐的就是anaconda。该软件包的安装更加方便,扩展包的覆盖范围和结构更加合理。
请去下载anaconda包。向下滚动网页以找到下载位置。根据您的操作系统类型选择合适的版本。
选择3.X版本,这就是python的未来。
然后请打开cmd命令控制台(命令提示符)并键入以下命令。因为我不只是爬文章,我还有词云制作,所以我有很多包下载。
mkdir 演示
光盘演示
现在我们有一个名为 demo 的专用工作目录。接下来进入demo文件夹,因为我已经创建好了,所以如下图所示。
在命令行下,首先执行:pip install wheel
然后,执行:pip install wordcloud(这个包常用于词云制作,本文不会用到)
以及:pip install jieba(本文不会用到这个包)
然后执行:pip install selenium
同样的,我已经全部安装好了,我们需要的所有Python运行环境也终于安装好了。
请务必按照上述步骤进行操作,以确保每个步骤都已成功完成。否则,一旦省略,后面运行程序就会报错。
二、代码
在命令行下,执行:jupyter notebook
浏览器会自动打开并显示如下界面。
当然,那个文件本来就没有,所以这里不用管。这是我们刚刚努力的结果——安装好的运行环境。我还没有写程序。
返回 Jupyter Notebook 的主页。我们点击新建按钮来创建一个新的笔记本(Notebook)。在 Notebooks 中,请选择 Python 3 选项。
我们将被提示输入笔记本的名称。程序代码文件的名字,可以随便启动。然后出现了一个空白的笔记本供我们使用。
我开始爬行今天的头条新闻。
然后输入ipynb文件,看到文本框。
如下图所示,在文本框中输入以下代码。一定要逐字输入示例代码,空格数不能有差别。这个跟语言特性有关系,一时说不完。
这段代码导入了一些用于保存为 csv 文件、控制时间和控制 selenium 工具的库。然后我们定义了一个函数,将文本内容写入到 CSV 文件中。输入后按Shift+Enter执行。
当然没用了,因为main函数还没写。
然后,根据下图输入相应的代码。
本节用于打开Chromedriver,即谷歌浏览器驱动。提前下载并保存在相应的目录中。
这一段是写网址的。
其实就是今日头条下搜索“江格案”出来的页面地址。
跑。
如上图,Chrome是由selenium控制的,当打开相应的网页时,也会得到该页面的html文档。然后写下一段代码,得到这个页面。程序会自动打开相应的页面。
接下来是以下内容。在这里很难解释所有这些。简单的说,我找到了文章元素,进去获取了出版商id,发布时间,文章标题和文章内容。并使用上面定义的 towrite 函数写入文档。
输入后按Shift+Enter执行。
然后你很快就会发现桌面上出现了一个文档。
打开它,可以看到:
最后一个:
转换成txt文件:
三、结束不是结束
介绍虽然有点长,但实用的时间不会太长,只有十几行代码。可能感觉太麻烦了,但是如果把上面代码中range()中的值改成1000,那么就可以捕获到多少个文章。
当然,你也可以在那个时候改变框架。
原来后面还有一篇文章,就是利用文档的内容做一个词云抽取关键词,分析文本中的情感,看看人们的情感是如何随着事件的进展而变化的(这是为什么我要爬取发布时间的原因是),然后在时间序列上绘制舆情分布图……我也想试试SPSS社会统计软件的作用……
所以你可以知道很多事情。
但是考试快到了。
所以,我下次必须这样做。
(先放一张图)
注:本文写于2017年12月,从个人兴趣出发。现在升为CSDN的第一部作品(笑)。以后一定要认真学习,认真写博客监督自己。