案例价值
该保险公司信息技术部负责维护全公司63套核心业务系统,涵盖承保、理赔、客服、渠道对接等全部业务链路。传统模式下,每周一各部门负责人会收到一份IT运维报表,内容是IT人员提前两天从多个监控系统手工汇总的数据。问题在于:业务部门拿到数据时,数据已经"老了";而IT人员每月花在制作各类运维报表上的时间超过60小时,严重挤占了系统优化和安全运维的专业工作。更棘手的是,当业务部门发现某系统响应变慢来询问IT时,双方常常因为SLA计算口径不一致而争论不休。
UINO数据智能引擎上线后,运维负责人可以在任何时刻用自然语言查询系统运行状态。某周五下午3点,业务负责人问"个险渠道系统和银保渠道系统上周可用率分别是多少",运维负责人在30秒内给出答案:个险渠道99.72%,银保渠道99.45%,均低于99.9%的目标线,但银保渠道主要是周日一次光缆故障所致,已在处理中。这一实时数据避免了业务负责人误判为"IT持续不给力"。整体来看,SLA汇报从事先手工统计变为随时可查,IT运维团队每月节省报表制作时间约65小时,业务部门对IT服务满意度从72%提升至91%。
技术路径
数据对接与本体建模:项目对接了监控系统(Zabbix+Nagios,日志数据)、IT运维工单系统(故障单、变更单)、云平台监控(AWS/阿里云监控数据)和网络设备监控。系统种类多、数据格式差异大,是运维数据整合的突出特点。UINO本体语义层将系统、可用率、故障工单、变更记录等核心运维实体统一建模,构建运维本体语义层图谱,实现多数据源语义对齐与口径统一。"可用率"作为关键语义指标,在本体层统一定义为"(统计周期总时长-故障时长)/统计周期总时长×100%",同时兼容"按故障次数计算"和"按故障时长计算"两种口径,并明确标注每条结果采用的是哪种计算方式。
技术选型与语义计算
查询"各渠道系统上周可用率对比"时,UINO引擎的语义解析链路如下:
第一步:多数据源协调。各渠道系统分别由不同的监控系统覆盖:个险渠道由Zabbix监控,银保渠道由阿里云原生监控,团险渠道则由混合监控方案覆盖。本体层的数据适配器将各监控系统的原始数据(指标名称、采集周期、格式)标准化为统一运维数据模型。
第二步:口径明确与标注。"可用率"存在两种常用口径:按故障时长(如某系统故障2小时,一周总时长168小时,可用率=99.81%)和按故障次数(如一周内发生3次故障,可用率=次数达标率)。系统在返回结果时,明确标注"本结果采用[按时长]口径计算",避免业务部门误解。
第三步:权限过滤。运维数据涉及系统安全,IT运维人员按系统管辖范围分配权限,各渠道IT仅能查询所辖系统的监控数据,防止越权访问。
第四步:聚合计算与可视化。按渠道维度聚合各子系统可用率,返回各渠道对比数据,同时支持下钻到子系统级别查看详细故障记录,30秒内完成。
过程难点
监控数据源多且格式不统一
63套系统使用了4种不同的监控工具,每种工具的告警格式、数据粒度、采集频率各不相同:Zabbix按5分钟粒度采集,Nagios按10分钟粒度,部分云系统使用厂商原生监控,粒度又不同。最麻烦的是监控系统的"故障开始时间"认定也存在差异——有的以告警触发时间为故障开始,有的以业务影响确认时间为故障开始。UINO在数据接入层建设了统一适配框架,每个数据源配备专用适配器,将原始数据转换为标准事件流(系统ID、故障开始时间、故障结束时间、故障时长、故障次数)。同时建立"时间轴对齐"规则,将不同粒度的数据统一到小时级,确保聚合计算准确。
可用率计算口径各异
公司内不同业务部门对"可用率"的理解和计算方式要求不同:业务部门习惯按时长计算(99.9%即一周故障不超过8.6分钟),IT部门在向监管部门汇报时按次数计算(SLA约定每月不超过3次故障),云服务商给的报告又是按"服务可用时长百分比"计算。UINO本体层内置了口径选择器,同一个指标可以切换三种常用口径查看结果,并在每条结果旁标注口径说明。当业务部门引用某数据用于正式汇报时,可以直接选择对应口径,确保数据被正确理解和使用。
历史故障数据质量参差
部分老系统(尤其是2015年前建设的)的监控数据记录不完整:有的故障缺少结束时间(需要靠人工补录),有的故障记录了但未关联到具体系统(运维人员仅在备注中文字描述),还有的故障跨越多个监控系统但在各自系统中分别记录了一次。UINO通过自然语言处理技术,从历史故障工单的文本备注中抽取故障系统、开始时间、结束时间等关键信息,补充到结构化数据中;对于重复记录,基于故障时间窗口(5分钟内同一系统的告警视为同一故障)进行自动去重,将历史数据覆盖率从62%提升至93%。