自动采集文章内容(自动采集文章内容,跟爬虫相比,文章数据量庞大)
优采云 发布时间: 2022-04-04 18:03自动采集文章内容(自动采集文章内容,跟爬虫相比,文章数据量庞大)
自动采集文章内容,跟爬虫相比,文章数据量庞大,为了方便快捷地进行爬虫,我们可以先将文章封装成几个bean对象,利用command+[]将bean对象集成到scrapy中,这样我们就能一次性为scrapy添加几千篇文章,也就是说我们用了scrapy只需要掌握一些基本概念就可以快速解决大量文章爬取工作。这里为每篇文章分配一个地址:provider=scrapy.spider([url=''],base_url='/')#导入处理器crawlshell=scrapy.crawler(selector='',url_provider=bean)#导入处理器,spider=crawlshell注:for循环会重复执行一次,所以处理器改成sys.stdout即可xhr=bean.set_property('xhr',url_provider.property())#导入处理器,spider=xhr#导入sys.stdout,spider=xhr#导入sys.stdoutforbeaninxhr:#执行处理器xhr.request(bean.url.format(bean,self.xhr))#处理器。
我也在想这个问题,我个人觉得爬虫工作起来很累,而且要做很多事情,比如提取站内文章内容。建议楼主先写爬虫再封装到scrapy中去吧,这样解决过去麻烦,实现时是省力。
楼主说的应该是crawler这个类,你把所有的你需要抓取的链接都加到project.xml里面,