nodejs抓取动态网页(实验程序抓取的数据,会在后面抽时间打造新项目)

优采云 发布时间: 2021-11-22 05:05

  nodejs抓取动态网页(实验程序抓取的数据,会在后面抽时间打造新项目)

  一个从0开始构建的*敏*感*词*采集程序。这个实验程序采集到的数据将用于后续的AI实验程序(如选股策略、交易策略等)。稍后我会花时间创建新项目。实验使用的数据源:东方财富网数据存储根目录:./data/eastmoney一、 使用前提步骤:安装nodejs(这里不详述) 安装包:npm install 启动抓取任务:节点应用程序。js二、数据包括:1.沪深A股行情数据,保存在子目录market下;2.股票历史数据,保存在子目录stock下;3.股票核心财务数据保存在子目录core下;三、 实现过程:整个ETL大部分是通过基类EtlServiceBase实现的,我们只需要根据需要实现子类即可,比如eastmoney中的实现方法;1. 首先分析网页: 1.1 在浏览器中打开要分析的数据网页,例如:

  

  1.2 按F12打开调试界面,找到请求数据地址和响应数据,使用请求包请求分页数据。请求过程在基类 EtlServiceBase 中实现。根据界面上的显示内容,与请求结果中的数据字段进行比较,找出映射关系。

  

  使用正则表达式提取 JSON 数据:

<p>var arr = text.match(/(?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线