成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Softmax
关注
0
综合
百科
VIP
热门
动态
论文
精华
Selective Attention: Enhancing Transformer through Principled Context Control
Arxiv
0+阅读 · 11月19日
Topkima-Former: Low-energy, Low-Latency Inference for Transformers using top-k In-memory ADC
Arxiv
0+阅读 · 11月20日
Fast Convergence of Softmax Policy Mirror Ascent
Arxiv
0+阅读 · 11月18日
Making Sigmoid-MSE Great Again: Output Reset Challenges Softmax Cross-Entropy in Neural Network Classification
Arxiv
0+阅读 · 11月18日
ConSmax: Hardware-Friendly Alternative Softmax with Learnable Parameters
Arxiv
0+阅读 · 11月15日
Calibration of ordinal regression networks
Arxiv
0+阅读 · 11月15日
Breaking the Low-Rank Dilemma of Linear Attention
Arxiv
0+阅读 · 11月14日
More Expressive Attention with Negative Weights
Arxiv
0+阅读 · 11月14日
Breaking the Low-Rank Dilemma of Linear Attention
Arxiv
0+阅读 · 11月12日
More Expressive Attention with Negative Weights
Arxiv
0+阅读 · 11月11日
Structure Matters: Dynamic Policy Gradient
Arxiv
0+阅读 · 11月7日
On Softmax Direct Preference Optimization for Recommendation
Arxiv
0+阅读 · 11月7日
LASER: Attention with Exponential Transformation
Arxiv
0+阅读 · 11月5日
On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures
Arxiv
0+阅读 · 11月5日
Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts
Arxiv
0+阅读 · 11月2日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top