自动采集文章内容(自动采集文章内容，跟爬虫相比，文章数据量庞大)

优采云发布时间: 2022-04-04 18:03

　　自动采集文章内容，跟爬虫相比，文章数据量庞大，为了方便快捷地进行爬虫，我们可以先将文章封装成几个bean对象，利用command+[]将bean对象集成到scrapy中，这样我们就能一次性为scrapy添加几千篇文章，也就是说我们用了scrapy只需要掌握一些基本概念就可以快速解决大量文章爬取工作。这里为每篇文章分配一个地址：provider=scrapy.spider([url=''],base_url='/')#导入处理器crawlshell=scrapy.crawler(selector='',url_provider=bean)#导入处理器，spider=crawlshell注：for循环会重复执行一次，所以处理器改成sys.stdout即可xhr=bean.set_property('xhr',url_provider.property())#导入处理器，spider=xhr#导入sys.stdout，spider=xhr#导入sys.stdoutforbeaninxhr:#执行处理器xhr.request(bean.url.format(bean,self.xhr))#处理器。

　　我也在想这个问题，我个人觉得爬虫工作起来很累，而且要做很多事情，比如提取站内文章内容。建议楼主先写爬虫再封装到scrapy中去吧，这样解决过去麻烦，实现时是省力。

　　楼主说的应该是crawler这个类，你把所有的你需要抓取的链接都加到project.xml里面，

0

2022-04-04

自动采集文章内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集文章内容(自动采集文章内容，跟爬虫相比，文章数据量庞大)

0 个评论

发起人

AI时代内容工厂

自动采集文章内容(自动采集文章内容，跟爬虫相比，文章数据量庞大)

0 个评论

发起人

相关问题