c 抓取网页数据(通过通达信获取行业行情数据,并利用R语言转换成常见文档格式)

优采云 发布时间: 2021-10-25 17:17

  c 抓取网页数据(通过通达信获取行业行情数据,并利用R语言转换成常见文档格式)

  1、 获取通大信软件的*敏*感*词*

  通达信软件有一个比较简单的获取历史修复数据的方法,就是通过软件直接导出。据我所知,这是最简单、可靠性高的数据采集方式。但这里的重点不是介绍如何通过简单的按键获取批量回收的*敏*感*词*,而是重点介绍如何获取通大信行业板块数据。

  广大股民都知道,通达信软件是广大投资者观察行情的必备软件之一,尤其是子行业板块和概念板块行情。虽然它的编制比较简单,但它有一个完整而独特的行业市场。因此,它具有非常重要的参考价值(顺便说一下,方正证券的全友通软件基本完全借鉴了通达信软件模型)。但是通达信行业板块的行情数据不能直接导出为txt等常用格式,只能导出为day格式,因此需要特殊的方法对day格式进行处理。

  因此,介绍通过通达信获取行业行情数据,并使用R语言将其转换为通用文档格式(csv或txt)的方法很重要。主要步骤如下:

  (1)首先找到行业代码文件:tdx\T0002\hq_cache\tdxzs.cfg,用记事本打开,具体结果如下:

  

  可以看出,该文件实际上收录了通大信软件行业指数模块中的所有行业代码,如行业板块、概念板块、风格板块、区域板块等。如果想了解黑龙江后面880201等几个数据的含义| 3 | | 1 | 0 | 1、请参考网页链接。这里省略。

  (2)通过盘后数据下载,选择对应的起止时间点(如2016年8月5日)下载所有沪深品种日数据,对应下载数据屏蔽截图如下如下:

  

  那么相应时间段的所有*敏*感*词*和行业行情数据都存储在:

  在文件夹'D://Program Files//new_tdx//vipdoc//sh//lday//'下,部分结果截图如下:

  

  (3) 将day格式的数据转换为普通文档格式。如果用普通记事本打开.day格式的数据,结果会出现乱码。如果需要知道里面的具体内容,其实可以用Binary Viewer软件 打开选择不同的16进制格式查看,看结果与真实数据一致,R语言中可以使用hexView工具包简单处理当天数据,即可得到行业板块转换成txt或者csv格式,等待数据保存到本地文件夹,R语言的代码如下:

  ############################################### #########

  #------------------------转换tdx行业数据--------------------- -----

  #1 将 tdx .day 数据转换为 txt/csv 数据。

  #2 使用包 hexView。

  #

  ############################################### #########

  库(十六进制视图)

  tdx.industrytdx.codefor(i in 1:length(tdx.code)){

  file.dir dayfile dayfile dayfile dayfile colnames(dayfile) 营业额大小=switch('real',real=4),endian='little')

  营业额营业额营业额价格价格[,2:5] save.dir write.csv(prices,file=save.dir,row.names=F)

  }

  上述方法也可用于将.day格式的*敏*感*词*转换为csv/txt格式的*敏*感*词*,但这种方法是不必要的,因为它可以直接导出。

  经过循环处理,得到的结果如下:

  

  当然,需要指出的是,获取行业板块市场数据还有另外两种方式。

  一种是中证系数指数、上证系列指数、深证系列指数等,但这种方法有其不足之处。具体而言,沪深交易所行业指数仅针对各自市场编制,并非针对国内所有沪深市场;沪深系列的行业指数可以反映沪深A股市场不同行业公司股票的整体表现,如300能源、300材料、300工业,但分类不全面,不能反映整体情况沪深股市各行业表现,分类标准不一致,如有 300能、500能、1000能,行业行情无法统一比较,后续行情数据时间长短不一。因此,一般情况下,投资者不喜欢使用这类行情数据。

  其次,新浪网页也有相应的行业板块数据。但是,由于我不知道行情数据对应的网址,所以无法获取其行业板块、概念板块等的指数走势数据(如果有知道的请告知!)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线