武汉协和医院官网 · wordcloud2词云制作
优采云 发布时间: 2022-05-13 01:51武汉协和医院官网 · wordcloud2词云制作
我们发现:协和医院、中心、外科高频出现在官网新闻里
(其实这是个学习号,可能是ta为了涨粉写这个对学习没啥帮助的帖子吧……非要说应用,可以帮助分析国自然中标课题热点)
第一部分,网页标题爬取
(参考)
1.需要安装R包“rvest”抓取网页信息
2.需要使用Chrome浏览器插件“SelectorGadaget”,这个插件能够让我们轻松获取目标信息的真实地址(fq安装)
插件使用
打开插件,点击新闻标短文,看见.pt10a,记下来
点击新闻标题,看见.tit9 a,记下来
如果发现周围字也标黄被选中了, 点击周围不想选的字,就可以排除选择
3. 发现新闻页面规律
打开协和医院医院新闻, 点击不同新闻发现
13067.html网址区别是这串数字,于是我跑一个数字区间 的for循环, 就可以获得目标新闻地址了
第二部分 开始动手 <p># 安装R包# install.packages("rvest") # 抓取网页信息用# install.packages('jiebaR') # 分词用# install.packages("wordcloud2") # 云词制作用<br />rm(list = ls()) setwd('D:\\OneDrive\\1逢雨实验\\生信\\R包学习') # 设置目录<br />options(stringsAsFactors = F) # 字符串不转因子<br />library(rvest) # 加载爬虫包info