We consider the Gaussian kernel density estimator with bandwidth $\beta^{-\frac12}$ of $n$ iid Gaussian samples. Using the Kac-Rice formula and an Edgeworth expansion, we prove that the expected number of modes on the real line scales as $\Theta(\sqrt{\beta\log\beta})$ as $\beta,n\to\infty$ provided $n^c\lesssim \beta\lesssim n^{2-c}$ for some constant $c>0$. An impetus behind this investigation is to determine the number of clusters to which Transformers are drawn in a metastable state.


翻译:我们考虑对n个独立同分布高斯样本采用带宽为$\\beta^{-\\frac12}$的高斯核密度估计器。利用Kac-Rice公式和Edgeworth展开,我们证明了当$\\beta,n\\to\\infty$时,实轴上期望模态数量以$\\Theta(\\sqrt{\\beta\\log\\beta})$的尺度增长,其中$n^c\\lesssim \\beta\\lesssim n^{2-c}$($c>0$为常数)。本研究的一个动机在于确定Transformer模型在亚稳态中被吸引到的聚类数量。

0
下载
关闭预览

相关内容

【NeurIPS2022】黎曼扩散模型
专知会员服务
42+阅读 · 2022年9月15日
专知会员服务
26+阅读 · 2021年8月11日
专知会员服务
50+阅读 · 2021年6月2日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
条件概率和贝叶斯公式 - 图解概率 03
遇见数学
10+阅读 · 2018年6月5日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NeurIPS2022】黎曼扩散模型
专知会员服务
42+阅读 · 2022年9月15日
专知会员服务
26+阅读 · 2021年8月11日
专知会员服务
50+阅读 · 2021年6月2日
相关资讯
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
条件概率和贝叶斯公式 - 图解概率 03
遇见数学
10+阅读 · 2018年6月5日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员