成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
第一层
关注
0
综合
百科
VIP
热门
动态
论文
精华
Value Residual Learning For Alleviating Attention Concentration In Transformers
Arxiv
0+阅读 · 12月3日
Value Residual Learning For Alleviating Attention Concentration In Transformers
Arxiv
0+阅读 · 11月14日
TrAct: Making First-layer Pre-Activations Trainable
Arxiv
0+阅读 · 10月31日
Value Residual Learning For Alleviating Attention Concentration In Transformers
Arxiv
0+阅读 · 10月23日
Understanding and Mitigating Language Confusion in LLMs
Arxiv
0+阅读 · 10月17日
Cross-Modality Attack Boosted by Gradient-Evolutionary Multiform Optimization
Arxiv
0+阅读 · 9月26日
How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression
Arxiv
0+阅读 · 8月8日
First line of defense: A robust first layer mitigates adversarial attacks
Arxiv
0+阅读 · 8月21日
Parallel-in-Time Solutions with Random Projection Neural Networks
Arxiv
0+阅读 · 8月19日
Pixel Embedding: Fully Quantized Convolutional Neural Network with Differentiable Lookup Table
Arxiv
0+阅读 · 7月23日
Understanding and Mitigating Language Confusion in LLMs
Arxiv
0+阅读 · 6月28日
A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks
Arxiv
0+阅读 · 6月16日
Adaptability and Homeostasis in the Game of Life interacting with the evolved Cellular Automata
Arxiv
0+阅读 · 5月9日
Mean-field Analysis on Two-layer Neural Networks from a Kernel Perspective
Arxiv
0+阅读 · 4月7日
Mean-field Analysis on Two-layer Neural Networks from a Kernel Perspective
Arxiv
0+阅读 · 3月22日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top