网页新闻抓取( 网站数据编写的应用框架-Scrapy )

优采云 发布时间: 2022-02-02 06:06

  网页新闻抓取(

网站数据编写的应用框架-Scrapy

)

  使用scrapy爬虫框架爬取伯乐在线的文章标题、标题url和发布时间

  Scrapy 是一个应用程序框架,用于抓取 网站 数据并提取结构化数据。它可用于数据挖掘、信息处理或存储历史数据等一系列程序中。它最初是为网页抓取(更准确地说,网页抓取)而设计的,但也可用于检索 API(例如 Amazon Associates Web 服务)或通用网络爬虫返回的数据。Scrapy 用途广泛,可用于数据挖掘、监控和自动化测试。Scrapy 使用 Twisted 异步网络库来处理网络通信。整体结构大致如下

  

  图1

  根据scrapy里面的调度,

  第1步:创建一个项目scrapy startproject jobbole2,我使用的是虚拟环境,之前也下载过这个项目。输入命令后出现如下提示。

  

  创建项目

  第二步:创建成功后会自动给出下一步的提示命令,如下,根据提示输入cd jobbole2,然后输入命令scrapy genspider my_jobbole2,创建成功后进入我们的编译器,我用的是pycharm。

  

  创建下一个文件

  第三步:虚拟环境和pycharm配置好后,同步目录,下载刚刚创建的scrapy项目,进入my_jobbole2.py文件编写爬虫代码

  

  Step 4:网页的解析步骤和爬虫的代码编写,这部分比较简单。只要熟悉request请求的网页的lxml解析步骤,这部分的代码就很容易理解了。先学爬虫基础,再学爬虫框架。这里就不赘述了,直接上代码吧(提醒一下scrapy和pyspider是不同的,方便调试,建议在scrapy shell中调试)。

  

  Step 5:完成以上代码后,scrapy框架相信大家已经很熟悉了。看图1,了解一下这个框架的爬取思路。蟒蛇之禅,古朴典雅。了解每个文件的分工。这种想法还在继续。,你会接触到的队列,生产者-消费者模式,或者代理池之类的其实都认为py文件相互调用,每个文件负责一个。最后粘贴成功的代码。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线