信息技术部 | 运维问数 | 智能问数案例

案例价值

该保险公司信息技术部负责维护全公司63套核心业务系统，涵盖承保、理赔、客服、渠道对接等全部业务链路。传统模式下，每周一各部门负责人会收到一份IT运维报表，内容是IT人员提前两天从多个监控系统手工汇总的数据。问题在于：业务部门拿到数据时，数据已经"老了"；而IT人员每月花在制作各类运维报表上的时间超过60小时，严重挤占了系统优化和安全运维的专业工作。更棘手的是，当业务部门发现某系统响应变慢来询问IT时，双方常常因为SLA计算口径不一致而争论不休。

典型问数

"各渠道系统上周可用率对比？"

UINO数据智能引擎上线后，运维负责人可以在任何时刻用自然语言查询系统运行状态。某周五下午3点，业务负责人问"个险渠道系统和银保渠道系统上周可用率分别是多少"，运维负责人在30秒内给出答案：个险渠道99.72%，银保渠道99.45%，均低于99.9%的目标线，但银保渠道主要是周日一次光缆故障所致，已在处理中。这一实时数据避免了业务负责人误判为"IT持续不给力"。整体来看，SLA汇报从事先手工统计变为随时可查，IT运维团队每月节省报表制作时间约65小时，业务部门对IT服务满意度从72%提升至91%。

30秒

查询响应时间

65h/月

报表制作时间节省

91%

业务部门满意度

技术路径

数据对接与本体建模：项目对接了监控系统（Zabbix+Nagios，日志数据）、IT运维工单系统（故障单、变更单）、云平台监控（AWS/阿里云监控数据）和网络设备监控。系统种类多、数据格式差异大，是运维数据整合的突出特点。UINO本体语义层将系统、可用率、故障工单、变更记录等核心运维实体统一建模，构建运维本体语义层图谱，实现多数据源语义对齐与口径统一。"可用率"作为关键语义指标，在本体层统一定义为"（统计周期总时长-故障时长）/统计周期总时长×100%"，同时兼容"按故障次数计算"和"按故障时长计算"两种口径，并明确标注每条结果采用的是哪种计算方式。

技术选型与语义计算

查询"各渠道系统上周可用率对比"时，UINO引擎的语义解析链路如下：

第一步：多数据源协调。各渠道系统分别由不同的监控系统覆盖：个险渠道由Zabbix监控，银保渠道由阿里云原生监控，团险渠道则由混合监控方案覆盖。本体层的数据适配器将各监控系统的原始数据（指标名称、采集周期、格式）标准化为统一运维数据模型。

第二步：口径明确与标注。"可用率"存在两种常用口径：按故障时长（如某系统故障2小时，一周总时长168小时，可用率=99.81%）和按故障次数（如一周内发生3次故障，可用率=次数达标率）。系统在返回结果时，明确标注"本结果采用[按时长]口径计算"，避免业务部门误解。

第三步：权限过滤。运维数据涉及系统安全，IT运维人员按系统管辖范围分配权限，各渠道IT仅能查询所辖系统的监控数据，防止越权访问。

第四步：聚合计算与可视化。按渠道维度聚合各子系统可用率，返回各渠道对比数据，同时支持下钻到子系统级别查看详细故障记录，30秒内完成。

过程难点

监控数据源多且格式不统一

63套系统使用了4种不同的监控工具，每种工具的告警格式、数据粒度、采集频率各不相同：Zabbix按5分钟粒度采集，Nagios按10分钟粒度，部分云系统使用厂商原生监控，粒度又不同。最麻烦的是监控系统的"故障开始时间"认定也存在差异——有的以告警触发时间为故障开始，有的以业务影响确认时间为故障开始。UINO在数据接入层建设了统一适配框架，每个数据源配备专用适配器，将原始数据转换为标准事件流（系统ID、故障开始时间、故障结束时间、故障时长、故障次数）。同时建立"时间轴对齐"规则，将不同粒度的数据统一到小时级，确保聚合计算准确。

可用率计算口径各异

公司内不同业务部门对"可用率"的理解和计算方式要求不同：业务部门习惯按时长计算（99.9%即一周故障不超过8.6分钟），IT部门在向监管部门汇报时按次数计算（SLA约定每月不超过3次故障），云服务商给的报告又是按"服务可用时长百分比"计算。UINO本体层内置了口径选择器，同一个指标可以切换三种常用口径查看结果，并在每条结果旁标注口径说明。当业务部门引用某数据用于正式汇报时，可以直接选择对应口径，确保数据被正确理解和使用。

历史故障数据质量参差

部分老系统（尤其是2015年前建设的）的监控数据记录不完整：有的故障缺少结束时间（需要靠人工补录），有的故障记录了但未关联到具体系统（运维人员仅在备注中文字描述），还有的故障跨越多个监控系统但在各自系统中分别记录了一次。UINO通过自然语言处理技术，从历史故障工单的文本备注中抽取故障系统、开始时间、结束时间等关键信息，补充到结构化数据中；对于重复记录，基于故障时间窗口（5分钟内同一系统的告警视为同一故障）进行自动去重，将历史数据覆盖率从62%提升至93%。

典型问数示例

信息技术部常见问数场景

· "上周故障工单平均响应时长按系统排名？"
· "本月P0级故障（MTTR>4小时）有哪些？"
· "各渠道系统数据库容量使用率当前是多少？"
· "过去一个月哪些系统的变更次数最多，变更成功率是多少？"
· "核心承保系统的平均响应时间环比变化趋势？"