Modern network sensors continuously produce enormous quantities of raw data that are beyond the capacity of human analysts. Cross-correlation of network sensors increases this challenge by enriching every network event with additional metadata. These large volumes of enriched network data present opportunities to statistically characterize network traffic and quickly answer a key question: "What are the primary cyber characteristics of my network data?" The Python GraphBLAS and PyD4M analysis frameworks enable anonymized statistical analysis to be performed quickly and efficiently on very large network data sets. This approach is tested using billions of anonymized network data samples from the largest Internet observatory (CAIDA Telescope) and tens of millions of anonymized records from the largest commercially available background enrichment capability (GreyNoise). The analysis confirms that most of the enriched variables follow expected heavy-tail distributions and that a large fraction of the network traffic is due to a small number of cyber activities. This information can simplify the cyber analysts' task by enabling prioritization of cyber activities based on statistical prevalence. -- Los sensores de red modernos producen enormes cantidades de datos sin procesar que est\'an m\'as all\'a de la capacidad del an\'alisis humano. Una correlaci\'on cruzada de sensores de red se convierte en un desaf\'io al enriquecer cada evento de red con metadatos adicionales. Estos grandes vol\'umenes de datos de red enriquecidos presentan una oportunidad para caracterizar estad\'isticamente el tr\'afico de red y responder a la pregunta: "?Cu\'ales son las principales caracter\'isticas cibern\'eticas de mis datos de red?" Los esquemas de an\'alisis de Python GraphBLAS y D4M permiten realizar an\'alisis estad\'isticos an\'onimos, r\'apidos y eficientes en conjuntos grandes de datos de red. Este enfoque se prueba utilizando miles de millones de muestras de datos de red an\'onimos del observatorio de Internet m\'as grande (Telescopio CAIDA) y decenas de millones de registros an\'onimos del fondo comercial con la mayor capacidad de enriquecimiento (GreyNoise). El an\'alisis confirma que la mayor\'ia de las variables enriquecidas siguen las distribuciones de cola pesada y que una gran fracci\'on del tr\'afico de red se debe a una peque\`na cantidad de actividades cibern\'eticas. Esta informaci\'on puede simplificar la tarea de los analistas cibern\'eticos al permitir la priorizaci\'on de las actividades cibern\'eticas en funci\'on de la prevalencia estad\'istica.
翻译:现代网络传感器不断生成大量超出人类分析员能力的原始数据。 网络传感器交叉校正通过增加元数据来丰富每个网络事件来增加这一挑战。 这些大量丰富的网络数据为网络流量的统计特征提供了机会, 并快速回答一个关键问题 : “ 我网络数据的主要网络特征是什么? ” Python GraphBLAS 和 PyD4M 分析框架使得在非常庞大的网络数据集上能够快速和高效地进行匿名统计分析。 这个方法使用来自最大的互联网观测站( CAIDA Telecer) 的数十亿匿名网络数据样本和来自最大商业可用背景浓缩能力( GreyNoise) 的数千万个匿名记录来测试这个挑战。 分析证实, 大部分浓缩的变量是预期的重尾部分布, 而网络流量的一大部分是由于网络活动前小部分。 这个信息可以简化网络分析员的任务,通过基于统计流行的网络活动的排序来简化网络活动 。 ( 红度的Slosemisdeal deali deal deal decasitial deal deal deal deal deal deal deal deal deal dealistimatimacide, an a distimax de distimax a dismax a an disax a dial de dial de disail de dial de dial de dial de dial de dial de dial de dial decamocial decamocial de dial de dial deal deal deal deal deal deal deal deal de dial de de dial de dial de dial de dial de de dial de dial de dial de di de dial de de de dial de dial de dial de de di de dial de dial de dial de dial de dial de di de de de de de de de de de di de dial de de de dial de de de de di dial de de dial de dial de dial de dial de dial de dial de dial de dial de