中国平安数据库搭建起爬虫!(港股中国)采集

优采云 发布时间: 2022-06-14 15:01

  中国平安数据库搭建起爬虫!(港股中国)采集

  网页抓取港股实时行情,建议:1.客户端采集。优点:后端从全球主要股票平台抓取,数据质量有保证,可以部署到服务器端。缺点:采集速度缓慢,无法批量修改数据源;无法针对部分区域(美股中国)进行优化。2.云服务器采集。优点:速度相对比客户端采集快些,可以根据自己的需求,直接在微软azure上买个服务器。缺点:价格相对较高。

  对比下来,云服务器还是比较划算的。3.模拟器采集。优点:客户端无法抓取时,可以选择模拟器,实现高效抓取。缺点:不能针对中国特定股票区域(港股中国)进行优化,相比云服务器,没有可比性。具体可以搜索“模拟器采集”。

  因为考虑到时效性的问题所以在去年9月份实现了python港股,比较省时间的选择是pandas对股票进行采集。下面分享一下我学习经验,希望对你有所帮助!希望对你有所帮助!因为考虑到时效性的问题所以在去年9月份实现了python港股,比较省时间的选择是pandas对股票进行采集。具体如下图:1.爬虫-关键词和网站正如图所示,它对*敏*感*词*的格式要求很多,对于理工科来说很难搞定,所以这里我利用中国平安数据库搭建起爬虫!第一步:关键词的提取1.关键词设置。

  首先创建数据库balance,它是以开户时账户所属行业的市值来检测的(这里我设置的是地产)。数据库创建完成之后,程序启动起来后就可以知道它有哪些关键词了,这里就不演示啦。(开户数据为国际金融市场)2.文件路径设置。默认为balance.txt,它是文本文件,不支持查看、复制、转换、编辑。在我之前python学习路径上的我有三个手机app,解决手机不支持mac也可以看的问题。

  这里只需要在mac上安装python2.7就行了。安装方法:cmd中输入pipinstallpandas即可。下面是回测命令,大家要自己琢磨!3.股票的信息获取。数据检索还是比较简单的,采用的一个老方法就是等待,一段时间如果没有获取到数据就自动退出数据库了。start_date='20120101'end_date='20120102'#start_date在开盘前的数据库查看一下。

  end_date在结束后的数据库查看一下。compile=''#open='20120103',low='20120104',high='20120105'universe=['hk','us','america','uk','europe','japan','china','argentina','newzealand','brazil','estonia','july','april','finland','mexican','newmexico','romania','ireland','sydney','thenewsouthwales。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线