操作指南
优采云 发布时间: 2020-08-11 01:01查看日志:这个主要是给开发人员用的,出了预警后,点击查看日志能打开该预警对应的日志。方便找问题。
编辑预警状态
查勘预警的详尽情况-走势图
2、导出案例
导出案例:这个功能是给数据组的朋友使用的,用于导入早已标准化的数据。
导出上海市案例
3、任务管理
任务管理:这个是给开发的同学使用的,用于各个网站的的数据采集。建立任务以及管理任务。
特别提醒的是任务描述上面不仅可以依照任务描述来搜索外,还可以依照任务的参数进行搜索。
列表上面的各个操作按键:
启动:启动系统调度,不是立刻执行任务
停止:停止系统调度
执行:立即执行任务,不用等系统调度。
日志:点击后查看这个任务近来的执行日志
任务列表
4、调度日志
调度日志:这个是给开发同学使用的,用于查看各个任务的日志,方便找问题。在Python爬虫中的printf复印下来的内容还会被记录到日志里
5、字段标准化规则
字段标准化规则:这个是给开发的同学使用的,用于管理标准化的时侯数组管理条例。分了城市、行政区的映射以及一些案例数组的映射标准。可以新增、编辑、删除这种映射数组。
字段标准化时的映射
新增映射数组
修改和删掉
6、楼盘座标管理
楼盘座标管理:是用于辅助 处理、纠正、核查新盘座标的工具。
查询城市-网站楼盘集合列表
这个地方有导出、进入编辑、自动估算、导出。
上传Excel文件导出数据
导入新盘数据文件的格式
“上传”导入功能:就是在如今我们将新盘,按照如下的格式整理好,然后通过上传Excel文件,导入我们待处理的新盘数据。注意状态:0标示须要人工处理的,1标示待初审的,2标示早已经过人工初审了的。
自动估算待人工处理的案例
自动估算:这个是针对于须要人工处理的,服务器后台有一套手动找座标的方式,能依照新盘名——城市,自动找座标。以此减少人工处理的工作量。服务器手动估算下来的新盘,会由“人工处理”状态变更为“待初审”的状态
导出:导出我们数据库上面这个城市-网站所有的新盘数据。导出文件为Excel格式的
导出的新盘数据Excel文件格式
“进入编辑”:进入辅助采集楼盘座标工具,本工具的座标都是通过百度地图的座标估算而出。以后会加入其它的座标数据源。
处理新盘座标
人工处理:点击人工处理的选项,然后在新盘列表点击新盘名,在两侧会手动搜索百度,并弹出结果。并且会手动选出最合适的装入到编辑区。然后点击保存更改即可。(修改成功后,案例会手动步入到已初审里)
审核新盘座标
待初审:就是对手动估算下来的新盘座标进行查看,如果是正确的,那么就点击保存更改,表明早已初审过了。
已初审:表明这个案例是经过觉得的去确认或则更改的。
7、楼盘名标准化规则
待开发,用于各个网站的新盘,跟FDC中的新盘做管联的工具。
8、系统设置
这个上面的功能有预警的标准设置,通用设置,以及各个城市-网站的案例量预警量的设置。
1h案例最低抓取量:1h内,每个任务的最低采集量,采集低的都会发送预警。(根据MQ消息来进行判定的)
各数组最高缺失率:根据MQ消息,如果MQ里的关键数组缺失率低于这个值,那么都会发送预警
最低标准化率:设置最低标准化值,这个值是用于设置标准化时,如果标准化后案例数量相对于未标注化前的,降低的量低于这个值时,就报出预警,提示标准化时有问题(有可能是网站的数组内容改版造成的)
最低入库率:这个暂未启动
每月的案例量同比涨跌幅:这个是相对于上个月的案例,如果采集量很高月上个月或则高于上个月太多,那么就说明要么采集了太多的重复案例,或者是采集的案例缺位太多。报出预警通知开发人员,做好监控检测。
预警基础信息设置
城市基准采集量配置:这个值对应的是一个月的量,比如上海是2000条,如果年底统计出这个月的案例量高于1380=2000*(1-31%) 或者低于3000=2000*(1+50%),那就就报出预警。
同事这个2000值,适用于每晚的采集量预警。2000/30=66.6等于每晚的量,如果某日采集的量,低于66条,那么也会报出预警。
城市基准采集量配置
这个是编辑城市采集量的多少的预警开关和数值。
编辑城市基准量预计配置
9、执行器管理
给开发者使用的页面。用于降低采集机器的配置页面。
执行器管理页面