中国移动吉林公司
面向用户体验的业务质量、网络质量、内容质量“三维度”保障的家客业务质量端到端管理支撑手段,固化质差问题定界规则及问题处理流程,实现主动监控预警、问题分析,形成全流程端到端支撑能力。
家宽质量分析从端到端业务感知的角度出发,提取影响用户感知的性能要素,构建家宽端到端质量评估体系。基于评估体系,通过监控评估、分析、投诉支撑三个步骤,查找并解决包括用户终端、网络设备、内容源等在内的端到端问题。
随着“宽带中国”战略的实施、“全光网城市”的逐步推进,大力发展有线宽带业务,确保用户体验,建立以客户感知为中心的有线宽带业务质量评估管理体系,提升业务质量。
响应集团“品质领先”行动通知的要求,实现质差小区精准分析识别,降低网络质量类问题投诉,开展质差终端精准识别,开展主动外呼工作,消除终端组网隐患。
集团下发的《中国移动家庭宽带支撑手段核心能力清单》要求,实现宽带业务质量监控预警、用户体验劣化定界及业务分析,支撑家庭宽带健康发展及问题有效处理。
家庭宽带业务是吉林移动战略及市场发展重点,家庭宽带市场竞争越发激烈,吉林移动家庭宽带业务快速发展,根据最新《中国移动家庭宽带业务IT支撑手段需求规范-性能与质量监测需求分册v2.0》的集团手册文件优化家宽的系统功能,以快速带动及支撑家庭宽带的市场营销发展。
互联网电视智慧运维加速终端问题解决,提供运维工具远程解决之前需上门处理的问题,提供解决方案定位上门难以应对的偶现问题;实现客诉管理关联故障现象、告警和专家远程调试记录,便于多专家联合定位、问题追踪以及与其他系统关联;实现业务管理,配置业务远程识别、一键诊断等运维功能,持续积累专家业务经验,后期逐步为一线工作人员提供工具并集成到现有系统和流程,利用专家经验积累快速定位和解决已知或类似问题。
1、终端侧软件
终端数据采集方面,系统实现的功能如下:
(1)机顶盒系统数据采集和告警,支持机顶盒内存、Flash、CPU等资源的异常告警上报和实时数据获取;实时数据获取,且不通过高频轮询方式实现;
(2)机顶盒APK管理和数据统计,支持APK安装、使用、崩溃等数据采集和统计,支持APK远程安装、卸载、升级,以满足用户客诉诉求或专家调试验证需要,支持终端APK自启动管理,可在前端软件配置可自启动的APK列表(不在APK自启动白名单中的APK完全不会开机自启动,而不是简单的在启动后将不在白名单的APK进行后台清理);
(3)通用数据采集,支持无埋点数据采集方式,不需要APK适配或修改,也可以采集到APK中用户行为数据,以及APK中使用非原生播放器时相关事件和质量数据,与软探针的数据采集方式(网络抓包和监听原生播放器广播)互补;通用数据采集功能,不依赖终端root权限;支持通过前端软件配置来新增数据采集项,终端不需要APK或OTA升级,重启后便可采集到新增数据采集项;终端上报采用JSON结构化数据,包含时间、MAC地址(或序列号等机顶盒识别数据)等基本信息,具体自定义字段名称具有可读性,便于前端软件直接进行数据统计和分析;
(4)专家工具,提供实时远程调试工具,能实时运行自定义脚本,运行结束后,能实时回传运行结果,运行结果包含脚本输出的日志、脚本中指定需远程获取的文件内容;实时调试触发方式,不通过高频轮询方式实现。提供终端偶现问题定位工具,能有效应对上门调试都不容易复现的问题;提供远程协助工具,用户授权后,能远程看到屏幕内容并自动识别当前业务,支持模拟遥控器远程操作机顶盒,辅助定位或解决问题;提供终端网络故障诊断和回传工具;用户遇到网络故障,专家或客服可电话指导用户使用快捷键触发网络诊断,网络诊断包含以下:网线连接状态、wifi状态、CM状态(上下行状态、频点、电平等)、网卡IP地址、网关和DNS、ping网关状态、ping通常见服务器地址结果;终端网络异常前提下,诊断结果可以方便快速的回传到前端软件服务器;
(5)业务驱动,支持通过前端软件配置来增加和对终端新业务的支持,每个业务支持的配置项包含:远程识别用户当前业务、业务相关自定义数据采集项、业务相关的诊断项(包含域名、端口诊断和链路分析);
(6)工单关联,专家跟进故障时,支持创建工单,工单与相关业务、专家处理此工单时使用各种工具的诊断历史等相关记录进行关联,便于多专家联合定位、问题追踪以及与其他系统关联;
2、端到端软件开发部署
系统同时包含前端软件方案和终端APK,针对在网运行的智能机顶盒协调完成APK签名和部署工作;系统前端软件支持Docker微服务或虚机集群部署,可实现快速部署和扩容。
3、实现终端数据采集和对接数据分析平台
包含完整的数据采集、清洗和分析,并基于无埋点数据采集方式,动态可配置,可为终端所有业务APK提供数据服务,便于专家快速定位终端发现的业务故障,不只是利用数据帮助业务APK排查故障,而是为业务APK提供物联网、数据采集分析、业务诊断等基础能力,避免每个APK都去做重复事情导致的终端重复和失控,作为运营商的基础能力平台。
ü 采用高扩展性和松耦合的无埋点数据采集方式;
ü 头端可新配置数据采集项,快速采集需要的数据;
ü 支持多种数据清洗模型,便于相关数据的关联、统计和计算(例如,播放相关开始、卡顿、花屏、结束、关机等,在数据清洗中,同一次播放相关数据会自动关联,并统计错误和播放时长);
ü 清洗后的数据,导入分布式文档数据库,每个字段均可被索引,可自定义数据的分析和展示方式,支持实时数据分析和可视化。专家可根据自己的思路配置新的数据展示和分析方式,不断迭代,便于从全网数据中快速找到新的问题线索;
提供业务管理能力:
ü 可配置和自定义新业务;
ü 支持业务识别配置(通过前台APK详细信息和当前播放URL信息),便于自动实时识别用户使用的业务;
ü 支持业务数据采集配置,包含采集、清洗和分析;
ü 支持业务诊断配置,包含网络诊断、自定义脚本诊断、与APK联合诊断、小批量诊断等;
ü 通过业务管理,可及时增加终端对新业务运维和运营的支持,也方便积累专家经验。
4、建立自动化终端运维流程
系统将终端运维从人工运维阶段提升到自动化运维阶段,不仅提供高效、实时、通用的运维工具,还针对专家经验积累进行设计和优化。系统提供业务管理功能,可通过前端软件配置增加对智能机顶盒新业务运维管控和数据采集支持。
5、建立并持续完善终端主动运维能力
充分利用终端智能系统优势,提供丰富的终端运维工具,快速方便的了解用户在终端的真实业务体验,即便用户断网情况下,也能快速收集数据并高效指导,尽量避免上门。
利用最新物联网技术MQTT协议,不受NAT映射或防火墙影响,为终端提供实时运维工具,可远程定位和解决终端问题,降低上门成本,缩短用户故障时间;
在架构设计和技术选择上,支持后续平滑扩展主动运维能力,后续可在当前架构上从单终端实时运维,扩展到实时从终端视角反馈全网业务状态,将传统依赖大量客诉的被动运维,变为可快速确定全网故障范围的主动运维,加速全链路问题的定位和解决;
6、应对智能终端业务快速增长和更新
支持通过前端软件配置增加对智能机顶盒业务的支持,包含业务诊断和业务数据采集,来应对业务快速增长和更新。
具备独立的系统自研和拓展能力,系统主要组件均为自研产品,对于需求方后续可能涉及的相关功能需求具有独立开发和支持能力。本系统除可以满足机顶盒终端管控需求,具备扩展性,可通过扩容升级的方式扩大对新机顶盒和新需求的支持。
系统架构图
1、实时掌握注册设备的整体概况,可以快速查询到设备信息和机顶盒运行情况,极大程度提升了终端设备管理的效率;
2、依托系统提供的调试、诊断工具实时解决用户报障问题,另一方面主动运维可以在用户未感知时提前处理可能发生的问题,降低用户客诉率;
3、业务播放和业务质量监测全面实时,通过系统得到的数据进行月度运营分析,包括但不限于:对热度剧集和其他用户感兴趣的内容进行优先推送,通过质差数据有针对性地解决直播、点播等故障问题,提升用户使用体验等。系统建设运行一段时间后,在内部的考评中,吉林移动互联网电视业务相关的收益以及业务排名上升到新的台阶。