武汉协和医院官网 · wordcloud2词云制作

优采云 发布时间: 2022-05-13 01:51

  武汉协和医院官网 · wordcloud2词云制作

  

  我们发现:协和医院、中心、外科高频出现在官网新闻里

  (其实这是个学习号,可能是ta为了涨粉写这个对学习没啥帮助的帖子吧……非要说应用,可以帮助分析国自然中标课题热点)

  第一部分,网页标题爬取

  (参考)

  1.需要安装R包“rvest”抓取网页信息

  2.需要使用Chrome浏览器插件“SelectorGadaget”,这个插件能够让我们轻松获取目标信息的真实地址(fq安装)

  插件使用

  打开插件,点击新闻标短文,看见.pt10a,记下来

  点击新闻标题,看见.tit9 a,记下来

  如果发现周围字也标黄被选中了, 点击周围不想选的字,就可以排除选择

  

  3. 发现新闻页面规律

  打开协和医院医院新闻, 点击不同新闻发现

  13067.html网址区别是这串数字,于是我跑一个数字区间 的for循环, 就可以获得目标新闻地址了

  

  第二部分 开始动手 <p># 安装R包# install.packages("rvest")   # 抓取网页信息用# install.packages('jiebaR') # 分词用# install.packages("wordcloud2") # 云词制作用<br />rm(list = ls())  setwd('D:\\OneDrive\\1逢雨实验\\生信\\R包学习') # 设置目录<br />options(stringsAsFactors = F) # 字符串不转因子<br />library(rvest) # 加载爬虫包info 

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线