阿里妹导读:VTrace 是一个解决云网络持续性丢包问题的自动化诊断系统,核心思想是“任务-匹配-染色-采集-分析”,结合大数据技术,旨在实时快速的自动分析出云网络端到端的流量拓扑路径,并给出准确的问题原因和解决方案,让网络运维不再需要那么“专业”,那么“复杂”。
低损耗数据包信息、流量路径和传输质量分析:在不影响用户业务的情况下,分析数据包信息,流量路径以及传输质量,并精准探测网络传输的时延抖动。
精准分析丢包原因定位:当丢包发生,VTrace 系统需要快速找到有问题的虚拟网元或物理网元,并提出根本原因及修复丢包的可能。
VTrace 能够基于数据包丢失的用户现场进行分析。
VTrace 的部署和使用不会影响正常的网络功能,对用户无感知。
由于存在数百万云用户,VTrace 需要能够支持不同用户的并发使用 。
主动探测技术如 pingmesh,适用于网络监控场景,但很难满足基于用户数据丢失现象进行分析的要求,也很可能因为和用户数据包的差异性难以还原丢包路径。
被动式网络监控技术如 VeriFlow,对用户有依赖性,无法满足对用户无感知的要求。
网络调试技术如 SDN Traceroute、NetAlytics 等,目前不适用一些云网络架构,也无法做到直观地给出丢包原因。而一些旁路分析架构,如新提出的 INT 技术(In-band Network Telemetry),虽可以实现目标,但对网络设备的要求高,同时由于旁路导致的带宽消耗,会影响对用户的网络功能 。
新建 VTrace 任务时,VTraceApp 向任务 DB 插入状态为 new 的一条任务。
Jstorm 读到 new 任务,将 new 改为 JStormReady。
VTraceApp 收到 JStormReady 后,向控制器发送下发 VTrace 任务的指令。
推荐阅读