动态网页抓取(R语言结合自然语言处理研究报告的文本全部抓取出来(组图))
优采云 发布时间: 2022-03-23 18:01动态网页抓取(R语言结合自然语言处理研究报告的文本全部抓取出来(组图))
最近一直在研究R语言结合自然语言处理来分析公司研究报告相关的话题。不过由于单位的数据不能拿出来研究,只能周末在家看看怎么从网上抓取相关数据,效果还不错。各大券商的评级、推荐时间、股票代码、研究报告正文均可在线检索。具体图片如下,示例可在以下网址下载:
由于金融行业的研究报告总数不是很大,通过使用selenium控制浏览器行为来抓取相关数据,对于没有学过爬虫的人来说可以节省不少脑细胞,但是安装selenium有很多陷阱. 本文具体介绍如何安装selenium,使用R语言工具调用。
首先是安装JDK,从官网下载JDK。
单击“计算机-属性-高级系统设置”,单击“环境变量”。单击系统变量下的新建以创建新的系统环境变量。
(1)New->变量名“JAVA_HOME”,变量值“C:\Java\jdk1.8.0_05”(即JDK的安装路径)
(2)编辑->变量名“路径”,在原变量值末尾添加“;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin”
(3)New->变量名“CLASSPATH”,变量值“.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar”
安装完成后,cmd进入命令行,执行java -version可以看到正确的版本。
然后安装chrome,可以访问这个官网的网址,点击免费下载直接安装即可。
三是下载相关插件解压到chrome安装目录C:\Program Files(x86)\Google\Chrome\Application.
第四步
start-execute-cmd 进入命令行
cd C:\Program Files (x86)\Google\Chrome\Application (进入浏览器安装目录)
java -Dwebdriver.chrome.driver="chromedriver.exe" -jar selenium-server-standalone-3.9.1.jar (启动服务器)