原创文章自动采集携程酒店数据说明:采用scrapy框架实现自动爬取
优采云 发布时间: 2022-08-29 17:00原创文章自动采集携程酒店数据说明:采用scrapy框架实现自动爬取
原创文章自动采集携程酒店数据说明:为了进一步提高效率,采用scrapy框架,总共实现了24个页面的自动爬取。第一个页面的数据,采用的是一个redis中间件,scrapy做了对http请求劫持等工作。具体解决方案在于如何用一个中间件可以完成服务器端的大部分功能,将http请求拦截,达到爬取本地页面的目的。
地址:::,对比上篇内容的两个页面:①.携程酒店:没有需要注意的地方②.1008房门券:有点不一样首先,打开携程app,选择“携程酒店”搜索,出现结果了,点击第1个门票便知。点击门票查看详情页,发现是携程产品页,并没有开放二级域名(例如*敏*感*词*),所以还得手动创建端口。查看携程门票开放的域名,发现没有需要注意的地方,便又点击最后一个门票。
得到结果如下:经过3次的修改才成功:①:携程酒店搜索结果,添加产品页②:携程酒店搜索结果,添加二级域名,且有个”redis中间件“③:携程酒店搜索结果,携程产品页,添加端口(redis中间件或,pipout)④:携程酒店搜索结果,携程产品页,添加端口(redis中间件或)手动尝试改动cookies以及本地代码的注册,发现没有用到,因此猜测没有需要注意的地方。
“携程酒店搜索结果”,上边的携程搜索结果结构会是:携程产品链接,携程产品链接,*敏*感*词*电话等③:携程酒店搜索结果,携程产品页,*敏*感*词*电话等,有一定的差异性,需要稍作调整“携程酒店搜索结果”,去除一些冗余信息,比如房型:房型设置了具体的室内长宽高,这个对整体效果没有明显影响,因此删除。“携程酒店搜索结果”,携程产品页,*敏*感*词*电话等,区分为表格状态和订单状态(t、f),且在不同的状态下页面不同。
通过上面的分析得到需要注意的地方有两个:携程产品页添加条形码识别,确保表格状态的订单状态链接为同一段的话(默认为一个链接,每一页包含5条信息),自动跳转到携程产品页,否则会自动跳转到酒店页。携程酒店搜索结果,表格状态订单状态根据上面分析整理出本次需要实现的代码如下:1.将携程产品页添加条形码识别等注册:route('/','/')#将参数携程产品链接替换为url携程产品链接route('/','/')#将参数携程产品链接替换为url携程产品链接route('/','/')#把url携程产品链接替换为url携程产品链接route('/','/')#将参数携程产品链接替换为url携程产品链接route('/','/')#将参数携程产品链接替换为url携程产品链接route('/','/')#将参数携程产品链接替换为url。