补全股票代码位数的一百种姿势
优采云 发布时间: 2022-05-08 19:27补全股票代码位数的一百种姿势
技术总编:张计宝
Stata云端培训课程在腾讯课堂上线啦!
爬虫*敏*感*词*于2020年7月中旬在线上举行的Stata编程技术培训课程在腾讯课堂上线啦!课程通过案例教学模式,帮助学员在短期内掌握Stata的基本命令、编程、数据处理以及结果输出等技术,并对Stata16的实用新功能做了详细介绍。
现在关注公众号并在朋友圈转发推文,即可获得600元课程优惠券,集赞50个再领200元课程优惠!(截图发至本公众号后台领取)原价2400元的课程,现在只要1600元!
导读
股票代码是上市公司股票的编码,通常以六位数的格式显示,但在实际研究过程中,我们时常会遇到数据中股票代码并不是六位数的情况,这时我们可以用Stata在数字前面补0直到补齐六位数为止。根据不同的情形,使用的方法也是不同的,本文将根据几种不同的需求介绍不同的方法。(一)cntrade和cnstock命令自动帮忙补全首先,如果使用cntrade或者cnstock命令来直接获取上市公司交易数据或股票代码时,股票代码会自动在Stata内存中显示为六位数的格式,即使你输入cntrade 1,Stata也会了解你想下载的是股票代码为000001的交易数据。
(二)数据库中下载的数据
如果从数据库中下载的数据导入Stata后发现不足六位,根据数值型和字符型两种需求,有这样三种方法:1.若想将股票代码保存为六位数的数值型变量,最简便也是最容易想到的,就是使用format命令:
format stkcd .0f
百分号后面的第一个零表示如果数字不足六位,则在数字前面补0。2.若想将股票代码保存为六位数的字符型变量,有两种方法:第一种是使用string函数:
replace stkcd = string(stkcd, ".0f")
第二种是使用tostring命令并配合format选项:
tostring stkcd,format(.0f) replace
(三)在爬虫中的具体案例
以爬取新浪公告为例,我们观察新浪财经网页上市公司公告的页面链接发现,通过对股票代码和页码分别进行循环,就可以抓取不同上市公司每一页的公告了。
我们使用cnstock命令获取上市公司股票代码并随机保留十家,通过定义局部宏来储存这十个股票代码,并查看一下我们储存在宏里的代码:
clear allcnstock allerase cnstock.dtasample 10, countlevelsof stkcd, local(stkcd) foreach i in `stkcd' { di `i'}
可以发现,并不是所有数字都是以六位数的格式显示的,那么直接循环抓取的话,多半是会发生错误的。我们知道,levelsof命令有一个返回值r(levels),里面存储着所遍历变量的值。因此我们也可以通过定义局部宏的方法,对返回值r(levels)里储存的股票代码进行补全: <p>clear allcnstock allerase cnstock.dtasample 10, countlevelsof stkcd disp `"`r(levels)'"'foreach stk in `r(levels)' {while length("`stk'")