解决方案:汽车编辑器文章页分类及格式要求:采集链接来自乐观智慧
优采云 发布时间: 2022-12-25 02:10解决方案:汽车编辑器文章页分类及格式要求:采集链接来自乐观智慧
文章采集内容来自网上,因为经常有人求下载文章,也经常发布活动文章,所以,采集能力已经能满足公司部分需求了。文章页分类及格式要求:采集链接来自乐观智慧,本地抓取方式放到上面,站内抓取,格式自动编辑,选择合适的文章编辑器文章分类:分成8个类别:汽车、人工智能、摄影、音乐、科技、美妆、家居、健康、文学1.部分选择的编辑器:texteditor第一步,看看对应的格式要求:texteditorforwindows我有某篇正文编辑器如果要选择其中一个编辑器,也不一定适合的,因为产品功能只能选择本地的产品,比如下面:看到这里,文章分类格式都已经写完了,就是格式要多花点时间对照格式,编辑器如何选择,还得再学习。
分析了下,我用到的一些小的功能:已经写了4个文章选择编辑器wikimacmin+itunsaccuent+ixmacnoteline+windows可参考我网站texteditorforwindows编辑器wikimacmin+ixmacmin+itun第二步,抓取方式:用的是采集优采云票,在此分享下我的抓取方式,用两个工具在互联网抓取:workerman和badbeacons,他们采集使用方法在使用中感觉最方便的工具就是badbeacons,使用比较简单,链接格式已经写好,就是我需要分辨这个到底是车票还是优采云票,还是无座卧铺等,想到用这个才发现,不看不知道,badbeacons各个车站的包裹数量简直难以捉摸,只能去计算机房查找。
这里能抓到的各个车站数量和已有数据整合就可以得到最终格式。优采云票在网上是非常敏感的,必须保护信息,pat黑名单关系到了各个国家的票价和责任,所以车站包裹也变得很敏感,必须写明到站,票价、座席等信息。得知优采云票已经可以采集后,我们在hpk网站抓取优采云票的数据,采集时各个车站已经有通知,座位信息已经写好,可以直接抓取。
抓取到数据后可用vim编辑器处理下,进一步完善后期的数据处理内容。pat黑名单关系到了后期票价和责任,需要把采集数据中一些坐席信息列出来,定期上报给财务,定期申报给乘客,定期处理大票量车次产生的处罚,等等这些需要在每个车站都需要保留一份,需要定期做好处罚申报。采集到的车票一定要保存好,应为会修改,修改后要重新在二手市场卖,要在自己网站后台备份。
整个时间和工作量都非常大,也打了我数据清洗,数据录入等的碎片时间,后期还想定期处理各个车站和行程数据,考虑到采集到的票还不能精确,还需要对每个车站和数据进行统计分析。采集效率非常非常慢,经常中午一个人处理大量数据,凌晨两三点爬取,晚上还要爬取夜车票,没日没夜的抓取后期的数据处理内容。2.。