c 抓取网页数据(通过通达信获取行业行情数据,并利用R语言转换成常见文档格式)
优采云 发布时间: 2021-10-25 17:17c 抓取网页数据(通过通达信获取行业行情数据,并利用R语言转换成常见文档格式)
1、 获取通大信软件的*敏*感*词*
通达信软件有一个比较简单的获取历史修复数据的方法,就是通过软件直接导出。据我所知,这是最简单、可靠性高的数据采集方式。但这里的重点不是介绍如何通过简单的按键获取批量回收的*敏*感*词*,而是重点介绍如何获取通大信行业板块数据。
广大股民都知道,通达信软件是广大投资者观察行情的必备软件之一,尤其是子行业板块和概念板块行情。虽然它的编制比较简单,但它有一个完整而独特的行业市场。因此,它具有非常重要的参考价值(顺便说一下,方正证券的全友通软件基本完全借鉴了通达信软件模型)。但是通达信行业板块的行情数据不能直接导出为txt等常用格式,只能导出为day格式,因此需要特殊的方法对day格式进行处理。
因此,介绍通过通达信获取行业行情数据,并使用R语言将其转换为通用文档格式(csv或txt)的方法很重要。主要步骤如下:
(1)首先找到行业代码文件:tdx\T0002\hq_cache\tdxzs.cfg,用记事本打开,具体结果如下:
可以看出,该文件实际上收录了通大信软件行业指数模块中的所有行业代码,如行业板块、概念板块、风格板块、区域板块等。如果想了解黑龙江后面880201等几个数据的含义| 3 | | 1 | 0 | 1、请参考网页链接。这里省略。
(2)通过盘后数据下载,选择对应的起止时间点(如2016年8月5日)下载所有沪深品种日数据,对应下载数据屏蔽截图如下如下:
那么相应时间段的所有*敏*感*词*和行业行情数据都存储在:
在文件夹'D://Program Files//new_tdx//vipdoc//sh//lday//'下,部分结果截图如下:
(3) 将day格式的数据转换为普通文档格式。如果用普通记事本打开.day格式的数据,结果会出现乱码。如果需要知道里面的具体内容,其实可以用Binary Viewer软件 打开选择不同的16进制格式查看,看结果与真实数据一致,R语言中可以使用hexView工具包简单处理当天数据,即可得到行业板块转换成txt或者csv格式,等待数据保存到本地文件夹,R语言的代码如下:
############################################### #########
#------------------------转换tdx行业数据--------------------- -----
#1 将 tdx .day 数据转换为 txt/csv 数据。
#2 使用包 hexView。
#
############################################### #########
库(十六进制视图)
tdx.industrytdx.codefor(i in 1:length(tdx.code)){
file.dir dayfile dayfile dayfile dayfile colnames(dayfile) 营业额大小=switch('real',real=4),endian='little')
营业额营业额营业额价格价格[,2:5] save.dir write.csv(prices,file=save.dir,row.names=F)
}
上述方法也可用于将.day格式的*敏*感*词*转换为csv/txt格式的*敏*感*词*,但这种方法是不必要的,因为它可以直接导出。
经过循环处理,得到的结果如下:
当然,需要指出的是,获取行业板块市场数据还有另外两种方式。
一种是中证系数指数、上证系列指数、深证系列指数等,但这种方法有其不足之处。具体而言,沪深交易所行业指数仅针对各自市场编制,并非针对国内所有沪深市场;沪深系列的行业指数可以反映沪深A股市场不同行业公司股票的整体表现,如300能源、300材料、300工业,但分类不全面,不能反映整体情况沪深股市各行业表现,分类标准不一致,如有 300能、500能、1000能,行业行情无法统一比较,后续行情数据时间长短不一。因此,一般情况下,投资者不喜欢使用这类行情数据。
其次,新浪网页也有相应的行业板块数据。但是,由于我不知道行情数据对应的网址,所以无法获取其行业板块、概念板块等的指数走势数据(如果有知道的请告知!)。