智能安全论文 - 专知

会员服务 ·

智能安全

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Languages and Modalities

Arxiv

0+阅读 · 12月9日

Categorical Framework for Quantum-Resistant Zero-Trust AI Security

Arxiv

0+阅读 · 11月25日

Distributional AGI Safety

Arxiv

0+阅读 · 12月18日

Enabling Frontier Lab Collaboration to Mitigate AI Safety Risks

Arxiv

0+阅读 · 11月9日

A Practical Framework for Evaluating Medical AI Security: Reproducible Assessment of Jailbreaking and Privacy Vulnerabilities Across Clinical Specialties

Arxiv

0+阅读 · 12月9日

International AI Safety Report 2025: Second Key Update: Technical Safeguards and Risk Management

Arxiv

0+阅读 · 11月25日

SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures

Arxiv

0+阅读 · 12月5日

SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth

Arxiv

0+阅读 · 11月24日

Fundamental Limitations of Alignment in Large Language Models

Arxiv

1+阅读 · 2023年4月19日

Negative Human Rights as a Basis for Long-term AI Safety and Regulation

Arxiv

0+阅读 · 2023年4月20日

SATBA: An Invisible Backdoor Attack Based On Spatial Attention

Arxiv

0+阅读 · 2023年3月26日

参考链接

微信扫码咨询专知VIP会员