今日头条文章采集软件( 关于江歌案的讨论和分析,你了解多少?)

优采云 发布时间: 2021-11-19 06:22

  今日头条文章采集软件(

关于江歌案的讨论和分析,你了解多少?)

  用Python+Selenium爬取今天关于江歌案的头条文章

  对于江歌案的讨论和分析,我当然是站在正义一边的,我不想重复那些结论。

  不过,网上关于江歌案的文章讨论还是很多的。我也想知道别人的看法和舆论(笑)。但是你让我一个一个看,emmmmm……我做不到。

  作为新时代文科生,写了个小爬虫,爬了一些文章下来。

  本文文章将对此进行介绍。

  一、准备

  对于知道这一点的人来说可能没什么,但让我写一下。

  首先,我们需要安装Python运行环境。如果您使用的是 macOS,Python 实际上已预装在您的系统中。如果是windows,可以在网上搜索python官网,下载对应的版本。

  那我们就要用到很多扩展包的功能了。因此,最好安装一个 Python 工具套件。您只需要安装一次,以后会集成大部分功能。无需每次使用新功能时都零碎地安装新软件包。

  Python包的种类很多,这里推荐的就是anaconda。该软件包的安装更加方便,扩展包的覆盖范围和结构更加合理。

  请去下载anaconda包。向下滚动网页以找到下载位置。根据您的操作系统类型选择合适的版本。

  

  选择3.X版本,这就是python的未来。

  然后请打开cmd命令控制台(命令提示符)并键入以下命令。因为我不只是爬文章,我还有词云制作,所以我有很多包下载。

  mkdir 演示

  光盘演示

  现在我们有一个名为 demo 的专用工作目录。接下来进入demo文件夹,因为我已经创建好了,所以如下图所示。

  

  在命令行下,首先执行:pip install wheel

  然后,执行:pip install wordcloud(这个包常用于词云制作,本文不会用到)

  以及:pip install jieba(本文不会用到这个包)

  然后执行:pip install selenium

  

  同样的,我已经全部安装好了,我们需要的所有Python运行环境也终于安装好了。

  请务必按照上述步骤进行操作,以确保每个步骤都已成功完成。否则,一旦省略,后面运行程序就会报错。

  二、代码

  在命令行下,执行:jupyter notebook

  浏览器会自动打开并显示如下界面。

  当然,那个文件本来就没有,所以这里不用管。这是我们刚刚努力的结果——安装好的运行环境。我还没有写程序。

  

  返回 Jupyter Notebook 的主页。我们点击新建按钮来创建一个新的笔记本(Notebook)。在 Notebooks 中,请选择 Python 3 选项。

  

  我们将被提示输入笔记本的名称。程序代码文件的名字,可以随便启动。然后出现了一个空白的笔记本供我们使用。

  我开始爬行今天的头条新闻。

  

  然后输入ipynb文件,看到文本框。

  如下图所示,在文本框中输入以下代码。一定要逐字输入示例代码,空格数不能有差别。这个跟语言特性有关系,一时说不完。

  这段代码导入了一些用于保存为 csv 文件、控制时间和控制 selenium 工具的库。然后我们定义了一个函数,将文本内容写入到 CSV 文件中。输入后按Shift+Enter执行。

  

  当然没用了,因为main函数还没写。

  然后,根据下图输入相应的代码。

  

  本节用于打开Chromedriver,即谷歌浏览器驱动。提前下载并保存在相应的目录中。

  

  这一段是写网址的。

  其实就是今日头条下搜索“江格案”出来的页面地址。

  跑。

  

  如上图,Chrome是由selenium控制的,当打开相应的网页时,也会得到该页面的html文档。然后写下一段代码,得到这个页面。程序会自动打开相应的页面。

  接下来是以下内容。在这里很难解释所有这些。简单的说,我找到了文章元素,进去获取了出版商id,发布时间,文章标题和文章内容。并使用上面定义的 towrite 函数写入文档。

  

  输入后按Shift+Enter执行。

  

  然后你很快就会发现桌面上出现了一个文档。

  

  打开它,可以看到:

  

  最后一个:

  

  转换成txt文件:

  

  三、结束不是结束

  介绍虽然有点长,但实用的时间不会太长,只有十几行代码。可能感觉太麻烦了,但是如果把上面代码中range()中的值改成1000,那么就可以捕获到多少个文章。

  当然,你也可以在那个时候改变框架。

  原来后面还有一篇文章,就是利用文档的内容做一个词云抽取关键词,分析文本中的情感,看看人们的情感是如何随着事件的进展而变化的(这是为什么我要爬取发布时间的原因是),然后在时间序列上绘制舆情分布图……我也想试试SPSS社会统计软件的作用……

  所以你可以知道很多事情。

  但是考试快到了。

  所以,我下次必须这样做。

  

  (先放一张图)

  注:本文写于2017年12月,从个人兴趣出发。现在升为CSDN的第一部作品(笑)。以后一定要认真学习,认真写博客监督自己。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线