Cultivating higher-order cognitive abilities -- such as knowledge integration, critical thinking, and creativity -- in modern STEM education necessitates a pedagogical shift from passive knowledge transmission to active Socratic construction. Although Large Language Models (LLMs) hold promise for STEM Interdisciplinary education, current methodologies employing Prompt Engineering (PE), Supervised Fine-tuning (SFT), or standard Reinforcement Learning (RL) often fall short of supporting this paradigm. Existing methods are hindered by three fundamental challenges: the inability to dynamically model latent student cognitive states; severe reward sparsity and delay inherent in long-term educational goals; and a tendency toward policy collapse lacking strategic diversity due to reliance on behavioral cloning. Recognizing the unobservability and dynamic complexity of these interactions, we formalize the Socratic Interdisciplinary Instructional Problem (SIIP) as a structured Partially Observable Markov Decision Process (POMDP), demanding simultaneous global exploration and fine-grained policy refinement. To this end, we propose ERL4SIIP, a novel Evolutionary Reinforcement Learning (ERL) framework specifically tailored for this domain. ERL4SIIP integrates: (1) a dynamic student simulator grounded in a STEM knowledge graph for latent state modeling; (2) a Hierarchical Reward Mechanism that decomposes long-horizon goals into dense signals; and (3) a LoRA-Division based optimization strategy coupling evolutionary algorithms for population-level global search with PPO for local gradient ascent.


翻译:在现代STEM教育中,培养高阶认知能力——如知识整合、批判性思维与创造力——需要从被动的知识传授转向主动的苏格拉底式建构教学范式。尽管大语言模型(LLMs)在STEM跨学科教育中展现出潜力,但当前基于提示工程(PE)、监督微调(SFT)或标准强化学习(RL)的方法往往难以有效支撑这一范式。现有方法受限于三个根本性挑战:无法动态建模学生潜在的认知状态;长期教育目标固有的严重奖励稀疏性与延迟问题;以及因依赖行为克隆而导致的策略趋同与战略多样性缺失。鉴于教学交互的不可观测性与动态复杂性,我们将苏格拉底式跨学科教学问题(SIIP)形式化为一个结构化的部分可观测马尔可夫决策过程(POMDP),该问题要求同时实现全局探索与细粒度策略优化。为此,我们提出ERL4SIIP——一个专为此领域设计的新型进化强化学习(ERL)框架。ERL4SIIP整合了:(1)基于STEM知识图谱的动态学生模拟器,用于潜在状态建模;(2)分层奖励机制,将长周期目标分解为密集奖励信号;(3)基于LoRA-Division的优化策略,将进化算法的种群级全局搜索与PPO的局部梯度上升相结合。

0
下载
关闭预览

相关内容

古希腊哲学家,和其学生柏拉图及柏拉图的学生亚里士多德被并称为希腊三哲人。他被后人广泛认为是西方哲学的奠基者。 苏格拉底相信「理想存在于一个只有智者才能了解的世界」。
【ICML2023】终身语言预训练与分布式专业化专家
专知会员服务
27+阅读 · 2023年5月26日
【MIT博士论文】数据高效强化学习,176页pdf
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月24日
Arxiv
0+阅读 · 12月19日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员