成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Hacking
关注
4
综合
百科
VIP
热门
动态
论文
精华
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
Arxiv
0+阅读 · 4月2日
DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning
Arxiv
0+阅读 · 3月28日
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
Arxiv
0+阅读 · 3月31日
Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment
Arxiv
0+阅读 · 3月27日
Probabilistic Uncertain Reward Model: A Natural Generalization of Bradley-Terry Reward Model
Arxiv
0+阅读 · 3月28日
ShadowHack: Hacking Shadows via Luminance-Color Divide and Conquer
Arxiv
0+阅读 · 3月28日
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
Arxiv
0+阅读 · 3月28日
Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking
Arxiv
0+阅读 · 3月13日
Hacking Cryptographic Protocols with Advanced Variational Quantum Attacks
Arxiv
0+阅读 · 3月14日
A Systematic Approach for Multi-objective Double-side Clock Tree Synthesis
Arxiv
0+阅读 · 3月16日
XAIxArts Manifesto: Explainable AI for the Arts
Arxiv
0+阅读 · 2月28日
RRM: Robust Reward Model Training Mitigates Reward Hacking
Arxiv
0+阅读 · 2月27日
Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks
Arxiv
0+阅读 · 2月6日
LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks
Arxiv
0+阅读 · 2月18日
MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking
Arxiv
0+阅读 · 1月22日
参考链接
父主题
黑客 (Hacker)
网络安全
计算机安全
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top