Predictive models for student dropout, while often accurate, frequently rely on opportunistic feature sets and suffer from undocumented data leakage, limiting their explanatory power and institutional usefulness. This paper introduces a leakage-aware data layer for student trajectory analytics, which serves as the methodological foundation for the CAPIRE framework for multilevel modelling. We propose a feature engineering design that organizes predictors into four levels: N1 (personal and socio-economic attributes), N2 (entry moment and academic history), N3 (curricular friction and performance), and N4 (institutional and macro-context variables)As a core component, we formalize the Value of Observation Time (VOT) as a critical design parameter that rigorously separates observation windows from outcome horizons, preventing data leakage by construction. An illustrative application in a long-cycle engineering program (1,343 students, ~57% dropout) demonstrates that VOT-restricted multilevel features support robust archetype discovery. A UMAP + DBSCAN pipeline uncovers 13 trajectory archetypes, including profiles of "early structural crisis," "sustained friction," and "hidden vulnerability" (low friction but high dropout). Bootstrap and permutation tests confirm these archetypes are statistically robust and temporally stable. We argue that this approach transforms feature engineering from a technical step into a central methodological artifact. This data layer serves as a disciplined bridge between retention theory, early-warning systems, and the future implementation of causal inference and agent-based modelling (ABM) within the CAPIRE program.


翻译:针对学生辍学的预测模型虽然通常准确,但往往依赖于机会性特征集,并受到未记录的数据泄漏问题困扰,从而限制了其解释力与机构实用性。本文提出了一种面向学生轨迹分析的防泄漏数据层,该层构成了CAPIRE多级建模框架的方法论基础。我们提出了一种特征工程设计,将预测变量组织为四个层级:N1(个人与社会经济属性)、N2(入学时点与学业历史)、N3(课程阻力与学业表现)、N4(机构与宏观环境变量)。作为核心组件,我们将观测时间价值(VOT)形式化为关键设计参数,通过严格区分观测窗口与结果预测时段,从结构上防止数据泄漏。在一个长周期工程专业项目(1,343名学生,辍学率约57%)的示例应用中,VOT约束的多级特征被证明能够支持稳健的原型发现。通过UMAP+DBSCAN流程识别出13种轨迹原型,包括“早期结构性危机”“持续阻力”及“隐性脆弱性”(低阻力但高辍学率)等类型。自助法与置换检验证实这些原型具有统计稳健性与时间稳定性。我们认为该方法将特征工程从技术步骤转化为核心方法论成果。该数据层为保留理论、预警系统以及未来在CAPIRE项目中实施因果推断与基于代理的建模(ABM)之间构建了严谨的桥梁。

0
下载
关闭预览

相关内容

论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员