成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Claude
关注
1
综合
百科
VIP
热门
动态
论文
精华
Bridging the Early Science Gap with Artificial Intelligence: Evaluating Large Language Models as Tools for Early Childhood Science Education
Arxiv
0+阅读 · 1月2日
Bridging the Early Science Gap with Artificial Intelligence: Evaluating Large Language Models as Tools for Early Childhood Science Education
Arxiv
0+阅读 · 1月9日
A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options
Arxiv
0+阅读 · 1月3日
Generative Artificial Intelligence-Supported Pentesting: A Comparison between Claude Opus, GPT-4, and Copilot
Arxiv
0+阅读 · 1月12日
Cultural Evolution of Cooperation among LLM Agents
Arxiv
1+阅读 · 2024年12月13日
Frontier Models are Capable of In-context Scheming
Arxiv
0+阅读 · 2024年12月6日
Are Frontier Large Language Models Suitable for Q&A in Science Centres?
Arxiv
0+阅读 · 2024年12月6日
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
Arxiv
0+阅读 · 2024年12月5日
"Moralized" Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks
Arxiv
0+阅读 · 2024年12月4日
"Moralized" Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks
Arxiv
0+阅读 · 2024年11月27日
Gender Bias in LLM-generated Interview Responses
Arxiv
0+阅读 · 2024年11月28日
Desert Camels and Oil Sheikhs: Arab-Centric Red Teaming of Frontier LLMs
Arxiv
0+阅读 · 2024年11月26日
"Moralized" Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks
Arxiv
0+阅读 · 2024年11月23日
LLM4DS: Evaluating Large Language Models for Data Science Code Generation
Arxiv
0+阅读 · 2024年11月16日
Towards Evaluating Large Language Models for Graph Query Generation
Arxiv
0+阅读 · 2024年11月18日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top