创建apicrawler从爬虫采集网页并存储在本地api函数

优采云 发布时间: 2022-08-11 17:02

  创建apicrawler从爬虫采集网页并存储在本地api函数

  

  通过关键词采集文章采集api也可以对文章进行爬虫,并将爬取的信息存储在本地。爬虫只要抓取蜘蛛存在的网页,其他网页一概爬不到。创建apicrawler从爬虫采集网页并存储在本地api函数定义:///@versioncrawler.crawler.spec={///@versioncrawler.applicationversion=1.1.0#nullorundefined///@versioncrawler.crawlerconfig={text:"",///@versioncrawler.crawlerapplication="c#project",///@versioncrawler.crawlerconfig#applicationlocation="c:\users\xxx\appdata\local\gm\group\crawler\group\crawler\\crawlerconfig.json",///@versioncrawler.crawlerclientid=1///@versioncrawler.crawlerdelegate=true///@versioncrawler.crawler-crawler.registerconfig=false///@versioncrawler.crawlerrequired=false///@versioncrawler.crawlerrequiet=false///@versioncrawler.testconfig=false},}api接口的driver采用官方的urllib2库crawlermapper类。

  

  每个接口都有一个方法采集数据,并存储在本地。相同的接口可以采集多个,如果有多个接口,请通过自己的爬虫来创建对应的爬虫,直接往spider中crawl即可采集。需要提前定义好传入crawler的参数,并写好代码。完整接口文档下载-html5lib.xmlapi链接/documents/get-api.html。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线