近日,阿里云可观测技术两篇论文分别入选软件工程领域两大顶级国际会议ASPLOS、ICSE,论文创造性地提出一套全新链路追踪框架Mint和一项故障诊断方法FAMOS,这是阿里云可观测技术论文首次被国际顶级会议录入,标志着阿里云可观测追踪框架设计及故障诊断方法的研究获得学术界的认可。
可观测链路追踪领域论文首次入选顶会
在入选顶会ASPLOS的论文《Mint: Cost-Efficient Tracing with All Requests Collection via Commonality and Variability Analysis》中,阿里云提出了一套全新链路追踪框架Mint,该框架通过“共性+差异”的新采样范式,既能保留重要信息,又能减少数据体量,实现了优化存储与网络开销的同时,捕获所有请求的调用链信息,让开发者可以借助丰富的数据更好的理解与管理复杂的应用系统。该论文是阿里云在可观测链路追踪(Tracing)领域入选的首篇顶会文章。
在传统的链路追踪框架中,分布式调用链作为追踪和观测分布式系统中请求的调用路径的主要手段,尽管提供了丰富的信息,但通常伴有庞大的数据体量。这种追踪方式采用“非黑即白”的采样策略:要么完整记录下所有信息(就像全程开着灯),要么几乎不记录任何信息(完全关着灯),没有中间状态,这就造成要么数据太多处理不过来而丢失关键信息,要么因为数据太少而无法准确地理解整个情况。就像100个不同的舞台剧剧本,保留其中60个,删除另外40个。
而Mint框架如同给调用链进行了一次聪明的整理,它首先找出所有操作中的“共性”,单独标记出每次操作特有“差异”,接着再把所有的共性聚合起来处理,同时对所有的差异进行过滤,这样可以让系统更加高效地记录和分析每一次的操作流程,同时也能更好地理解整个系统的运行情况。就像100个舞台剧剧本都有相同的开场白和结束语,但中间的舞蹈与对话都不同,通过识别并保留这些剧本中的共性(开场和结束)和差异(舞蹈和对话),更容易高效地区分与组织这些内容。
实验结果表明,链路追踪框架Mint能够捕获所有调用链,在优化存储(平均减少至2.7%)和网络开销(平均减少至4.2%)的同时,保留更多调用链信息,且该框架足够轻量化,适合在生产环境中使用。
FAMOS故障诊断方法入选顶会ICSE
阿里云入选顶会ICSE的论文《FAMOS: Fault diagnosis for Microservice Systems through Effective Multi-modal Data Fusion》则是提出了一项名为FAMOS的故障诊断方法。
FAMOS故障诊断针对IT系统中由于软硬件环境及依赖关系复杂导致的单一数据源难以定位问题的情况,为每种类型的数据(如日志、指标、追踪等)设计最佳特征提取方式来减少信息丢失,并采用多种手段捕捉不同数据源之间的关联性,增强了故障识别的准确性和效率。
就像侦探在侦破案件时,将目击者的描述(声音)、现场的照片(图像)以及案发时的监控录像(视频)按不同类型进行提取,并将这些信息进行关联分析,从而揭示案件背后的真相。
两篇论文涉及的科研成果目前已部分在阿里云可观测产品家族日志服务SLS、应用实时监控服务ARMS等产品模块深度集成与整合。在未来,阿里云可观测产品将为众多云上企业持续提供业界领先的大模型算法与可观测应用能力。
阿里云已为全球近百个可用区的百万企业级用户提供高效便捷、安全稳定的可观测服务。如叠纸通过使用日志服务SLS实时监控新游《无限暖暖》全球同步上线运行状况,对关键云资源用量进行监控和告警;茶百道基于应用实时监控服务ARMS快速建立运维观测与响应能力,故障恢复效率提升50%以上;极氪基于日志服务SLS与应用实时监控服务ARMS构建应急响应与ChatOps协同机制,告警平均恢复耗时缩短50%。
ASPLOS(International Conference on Architectural Support for Programming Languages and Operating Systems) 作为ACM编程语言和操作系统架构支持的国际会议,是跨学科计算机系统研究的顶级学术会议,会议聚焦计算机架构、网络、存储、剖析与测试、安全性与可靠性等相关领域,论文接收率12.7%。
ICSE(International Conference on Software Engineering)是软件工程领域的顶级国际会议,每年由ACM主办。自1975年首次召开以来,ICSE会议已经发展成为软件工程学术界和工业界最重要的会议之一,每年论文录取率大约在15%~20%之间。