成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Softmax
关注
0
综合
百科
VIP
热门
动态
论文
精华
Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection
Arxiv
0+阅读 · 3月21日
On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures
Arxiv
0+阅读 · 3月22日
LoLCATs: On Low-Rank Linearizing of Large Language Models
Arxiv
0+阅读 · 3月5日
Convergence Rates for Softmax Gating Mixture of Experts
Arxiv
0+阅读 · 3月5日
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention
Arxiv
0+阅读 · 3月17日
On Expert Estimation in Hierarchical Mixture of Experts: Beyond Softmax Gating Functions
Arxiv
0+阅读 · 3月6日
Self-Adjust Softmax
Arxiv
0+阅读 · 2月25日
LLM Inference Acceleration via Efficient Operation Fusion
Arxiv
0+阅读 · 2月24日
A Quantitative Evaluation of Approximate Softmax Functions for Deep Neural Networks
Arxiv
0+阅读 · 1月23日
Scalable-Softmax Is Superior for Attention
Arxiv
0+阅读 · 1月31日
An Iterative Algorithm for Rescaled Hyperbolic Functions Regression
Arxiv
0+阅读 · 2月17日
Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models
Arxiv
0+阅读 · 1月23日
Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models
Arxiv
0+阅读 · 1月27日
Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition
Arxiv
0+阅读 · 1月29日
Rethinking Approximate Gaussian Inference in Classification
Arxiv
0+阅读 · 2月5日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top