Python数据抓取(1) —数据处理前的准备

优采云 发布时间: 2022-05-23 23:19

  Python数据抓取(1) —数据处理前的准备

  (一)数据抓取概要

  如何将非结构化的数据转化为结构化的数据呢?

  (二)抓取的逻辑—ETL

  ETL是什么?

  (三)数据抓取前的准备1.“网络爬虫”架构

  网络爬虫构架

  

  2、如何理解“网络爬虫”架构

  对量化投资策略进行研究,第一步就是获取我们需要的数据,在工作实践中,比较实用的数据源就是新浪财经的数据,下面我们以新浪财经为例,为大家梳理下网络爬虫的构架

  3、以抓取一个网页的内容为目的,如何去观察一个网页

  我们有新浪财经的股票博客信息,我们该如何把这些信息,包含标题和时间抓取出来?

  (1)使用开发人员工具观察

  

  (2)观察Requests的构成

  

  

  通常来讲,文章和新闻会放在Doc下,接下来我们要抓取的链接就藏在106个链接中的某个链接;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线