Large language models (LLMs) are increasingly adopted in educational technologies for a variety of tasks, from generating instructional materials and assisting with assessment design to tutoring. While prior work has investigated how models can be adapted or optimized for specific tasks, far less is known about how well LLMs perform at interpreting authentic educational scenarios without significant customization. As LLM-based systems become widely adopted by learners and educators in everyday academic contexts, understanding their out-of-the-box capabilities is increasingly important for setting expectations and benchmarking. We compared six LLMs to estimate their baseline performance on a simple but important task: classifying instructional moves in authentic classroom transcripts. We evaluated typical prompting methods: zero-shot, one-shot, and few-shot prompting. We found that while zero-shot performance was moderate, providing comprehensive examples (few-shot prompting) significantly improved performance for state-of-the-art models, with the strongest configuration reaching Cohen's Kappa = 0.58 against expert-coded annotations. At the same time, improvements were neither uniform nor complete: performance varied considerably by instructional move, and higher recall frequently came at the cost of increased false positives. Overall, these findings indicate that foundation models demonstrate meaningful yet limited capacity to interpret instructional discourse, with prompt design helping to surface capability but not eliminating fundamental reliability constraints.


翻译:大型语言模型(LLMs)正日益广泛地应用于教育技术领域,承担着从生成教学材料、辅助评估设计到实施辅导等多种任务。尽管先前的研究已探讨了如何针对特定任务对模型进行适配或优化,但对于LLMs在未经显著定制的情况下解读真实教育场景的能力,我们仍知之甚少。随着基于LLM的系统在日常学术场景中被学习者和教育工作者广泛采用,理解其开箱即用的能力对于设定预期和建立基准变得愈发重要。我们比较了六种LLM,以评估它们在一项简单但重要的任务上的基线性能:对真实课堂转录文本中的教学行为进行分类。我们评估了典型的提示方法:零样本、单样本和少样本提示。研究发现,虽然零样本表现中等,但提供全面示例(少样本提示)能显著提升最先进模型的性能,其中最优配置在专家标注数据上达到Cohen's Kappa = 0.58。然而,性能提升既不均衡也不彻底:不同教学行为的识别效果差异显著,且召回率的提升往往伴随着误报率的增加。总体而言,这些发现表明基础模型在解读教学话语方面展现出有意义但有限的能力,提示设计有助于挖掘模型潜力,但无法消除其固有的可靠性限制。

0
下载
关闭预览

相关内容

大语言模型训练数据
专知会员服务
69+阅读 · 2024年11月22日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员