网站内容采集系统(城市-网站案例统计图-整年预警列表及内容介绍)
优采云 发布时间: 2022-04-15 17:02网站内容采集系统(城市-网站案例统计图-整年预警列表及内容介绍)
1、登录
URL::8080/xxl-job-admin
账号:管理员
密码:admin
(由于本系统不兼容部分老IE内容,请使用非IE内核的浏览器,如360浏览器请选择express版本,不要选择IE兼容版本。)
登录
2、内容介绍
布局
采集系统内容区左侧为导航栏,右侧为对应内容区。
有以下10个功能模块:
1、警告统计
预警统计趋势图:预警趋势图主要是通过采集程序发送的连续MQ消息形成趋势图,从而观察各个城市的采集是否正常运行。
预警趋势图
统计趋势图:就是通过数据库查询各个城市、各个时间段的采集成交量趋势图,主要是查看采集的日成交量是否正常。
在日期后的月份选择栏中,
如果直接选择“月”(March),则显示该城市该月的每日案例采集成交量图表。
城市-网站病例统计-按月
如果选择“全年”,则此处显示当年每个月的总趋势图。
城市-网站病例统计-全年
警告列表:在通过程序不断发送给服务器的MQ消息中,我们可以根据一定的规则判断采集程序状态是否正常。如果不正常,会记录在这个警告列表中,同事会交给开发者。发送电子邮件通知。
按条件搜索警报列表
同时每个alert后面都有几个action项: 1、View2、Edit3、View log 目前alert很多,所以没有处理,而这些以后出现异常需要及时处理。
查看:该操作按钮主要针对“1h抓取量预警”类型的预警,主要是展示该预警对应的城市-网站的走势,方便问题分析。
编辑:用于处理预警。今后我们会发出预警,一定要尽快找出原因解决。
查看日志:这主要是给开发者的。告警发出后,点击查看日志,打开告警对应的日志。容易发现问题。
编辑警报状态
调查预警详情-趋势图
2、出口案例
导出案例:此功能是为数据组中的同事导出已归一化的数据。
出口上海案例
3、任务管理
任务管理:开发同事用于每个网站 的数据采集。创建任务和管理任务。
需要特别提醒的是,除了根据任务描述搜索,还可以根据任务的参数搜索任务描述。
列表中的每个操作按钮:
start:启动系统调度,不立即执行任务
stop:停止系统调度
执行:立即执行任务,无需等待系统调度。
日志:点击查看该任务最近的执行日志
任务列表
4、调度日志
调度日志:这个是开发同事用来查看每个任务的日志,方便发现问题。Python爬虫中printf打印的内容会记录在日志中
5、字段规范化规则
字段标准化规则:这是开发同事在标准化时用来管理字段管理规则的。划分了城市和行政区域的映射以及部分案例领域的映射标准。可以添加、编辑和删除这些映射字段。
字段标准化时的映射
添加映射字段
修改和删除
6、不动产坐标管理
不动产坐标管理:用于协助处理、修正和检查不动产坐标的工具。
查询城市-网站房产采集列表
这个地方有导入,输入编辑,自动计算,导出。
上传 Excel 文件以导入数据
导入的房地产数据文件格式
“上传”导入功能:现在我们将楼盘整理成如下格式,然后通过上传Excel文件的方式导入待处理的楼盘数据。注意状态:0表示需要人工处理,1表示待审核,2表示已经人工审核。
自动计算需人工处理的*敏*感*词*
自动计算:这是用于手动处理。服务器后台有一套自动找坐标的方法,可以根据房产名称——城市自动找坐标。这样就减少了人工处理的工作量。由服务器自动计算的房产将由“人工处理”改为“待审核”
导出:导出我们数据库中该城市-网站的所有房地产数据。将文件导出为 Excel 格式
以 Excel 文件格式导出房地产数据
“进入编辑”:进入辅助采集房产坐标工具,该工具的坐标是根据百度地图坐标计算的。将来会添加其他坐标数据源。
处理不动产坐标
手动处理:点击手动处理选项,然后在楼盘列表中点击楼盘名称,百度会在右侧自动搜索,并弹出结果。并且会自动选择最合适的一个放到编辑区。然后单击保存更改。(修改成功后,案例会自动进入审核名单)
查看房地产坐标
待审核:检查不动产的自动计算坐标。如果正确,点击保存修改,表示已审核。
已审核:表示该案例被视为已确认或修改。
7、房地产名称标准化规则
待开发,它将用于每个网站房地产,它将成为与FDC房地产链接的工具。
8、系统设置
其中功能包括预警标准设置、通用设置、各城市病例量预警量设置-网站。
1h案例最小抓取量:1h内,每个任务的最小采集数量,采集为低,会发送警报。(根据MQ消息判断)
各个字段的最高缺失率:根据MQ消息,如果MQ中关键字段的缺失率高于此值,则会发出警报
最小归一化率:设置最小归一化值。该值用于设置标准化。如果归一化后的病例数低于未标注值前,会上报预警,说明归一化有问题。(可能是网站的字段内容修改造成的)
最低入仓率:这个还没开始
病例数环比增减:这是相对于上月的病例数。如果上个月采集的数量太高或者上个月太低,那么要么是采集重复案例太多,要么是采集案例太多失踪。上报预警通知开发商,做好监测检查。
预警基本信息设置
城市基准采集量配置:该值对应一个月的量,比如北京是2000,如果这个月的病例数小于1380=2000*(1-31%)或更高比月末统计3000=2000*(1+50%),则上报预警。
各位同事,这个2000值适用于每日采集音量警告。2000/30=66.6 等于每日交易量。如果某天采集的成交量小于66,也会上报预警。
城市基准采集卷配置
这是编辑城市数量采集的警告开关和值。
编辑城市基线体积投影配置
9、执行者管理
开发人员的页面。添加 采集 机器的配置页面。
执行器管理页面