Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.


翻译:准确估计题目(问题或任务)难度对于教育评估至关重要,但存在冷启动问题。尽管大型语言模型展现出超强的问题解决能力,它们是否能感知人类学习者的认知困境仍是一个开放性问题。本研究针对涵盖医学知识和数学推理等多个领域的20多个模型,开展了大规模的人机难度对齐实证分析。我们的发现揭示了一种系统性错位现象:扩大模型规模并不能可靠地改善对齐效果;模型非但没有与人类对齐,反而趋同于机器共识。我们观察到,高性能往往阻碍准确的难度估计,即使明确提示模型采用特定能力水平,它们仍难以模拟学生的能力局限。此外,我们发现模型存在关键的内省能力缺失,无法预测自身的局限性。这些结果表明,通用问题解决能力并不意味着对人类认知困境的理解,凸显了使用现有模型进行自动化难度预测所面临的挑战。

0
下载
关闭预览

相关内容

【NeurIPS2025】迈向开放世界的三维“物体性”学习
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 12月19日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员