Python数据抓取(1) —数据处理前的准备
优采云 发布时间: 2022-05-23 23:19Python数据抓取(1) —数据处理前的准备
(一)数据抓取概要
如何将非结构化的数据转化为结构化的数据呢?
(二)抓取的逻辑—ETL
ETL是什么?
(三)数据抓取前的准备1.“网络爬虫”架构
网络爬虫构架
2、如何理解“网络爬虫”架构
对量化投资策略进行研究,第一步就是获取我们需要的数据,在工作实践中,比较实用的数据源就是新浪财经的数据,下面我们以新浪财经为例,为大家梳理下网络爬虫的构架
3、以抓取一个网页的内容为目的,如何去观察一个网页
我们有新浪财经的股票博客信息,我们该如何把这些信息,包含标题和时间抓取出来?
(1)使用开发人员工具观察
(2)观察Requests的构成
通常来讲,文章和新闻会放在Doc下,接下来我们要抓取的链接就藏在106个链接中的某个链接;