动态网页抓取(R语言结合自然语言处理研究报告的文本全部抓取出来(组图))

优采云 发布时间: 2022-03-23 18:01

  动态网页抓取(R语言结合自然语言处理研究报告的文本全部抓取出来(组图))

  最近一直在研究R语言结合自然语言处理来分析公司研究报告相关的话题。不过由于单位的数据不能拿出来研究,只能周末在家看看怎么从网上抓取相关数据,效果还不错。各大券商的评级、推荐时间、股票代码、研究报告正文均可在线检索。具体图片如下,示例可在以下网址下载:

  

  由于金融行业的研究报告总数不是很大,通过使用selenium控制浏览器行为来抓取相关数据,对于没有学过爬虫的人来说可以节省不少脑细胞,但是安装selenium有很多陷阱. 本文具体介绍如何安装selenium,使用R语言工具调用。

  首先是安装JDK,从官网下载JDK。

  单击“计算机-属性-高级系统设置”,单击“环境变量”。单击系统变量下的新建以创建新的系统环境变量。

  (1)New->变量名“JAVA_HOME”,变量值“C:\Java\jdk1.8.0_05”(即JDK的安装路径)

  (2)编辑->变量名“路径”,在原变量值末尾添加“;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin”

  (3)New->变量名“CLASSPATH”,变量值“.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar”

  安装完成后,cmd进入命令行,执行java -version可以看到正确的版本。

  然后安装chrome,可以访问这个官网的网址,点击免费下载直接安装即可。

  三是下载相关插件解压到chrome安装目录C:\Program Files(x86)\Google\Chrome\Application.

  第四步

  start-execute-cmd 进入命令行

  cd C:\Program Files (x86)\Google\Chrome\Application (进入浏览器安装目录)

  java -Dwebdriver.chrome.driver="chromedriver.exe" -jar selenium-server-standalone-3.9.1.jar (启动服务器)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线