Collegiate cross country teams often build their season schedules on intuition rather than evidence, partly because large-scale performance datasets are not publicly accessible. To address this limitation, we introduce the National Running Club Database (NRCD), the first openly available dataset to aggregate 23,725 race results from 7,594 collegiate club athletes across the 2023-2025 seasons. Unlike existing resources, NRCD includes detailed course metadata, allowing us to develop two standardized performance metrics: Converted Only (distance correction) and Standardized (distance, weather, and elevation adjusted). Using these standardized measures, we find that athletes with slower initial performances exhibit the greatest improvement within a season, and that race frequency is the strongest predictor of improvement. Using six machine learning models, random forest achieves the highest accuracy (r squared equals 0.92), revealing that athletes who race more frequently progress significantly faster than those who do not. At the team level, programs whose athletes race at least four times during the regular season have substantially higher odds of placing in the top 15 at nationals (chi-squared less than 0.01). These results challenge common coaching practices that favor minimal racing before championship meets. Our findings demonstrate that a data-informed scheduling strategy improves both individual development and team competitiveness. The NRCD provides a new foundation for evidence-based decision-making in collegiate cross country and opens opportunities for further research on standardized, longitudinal athlete performance modeling.


翻译:大学越野跑队伍制定赛季赛程时通常依赖直觉而非实证依据,部分原因在于大规模运动表现数据集尚未公开。为突破这一局限,我们推出了国家跑步俱乐部数据库(NRCD),这是首个公开整合2023-2025赛季7,594名大学俱乐部运动员23,725条比赛成绩的数据集。与现有资源不同,NRCD包含详细的赛道元数据,使我们能够开发两种标准化表现指标:纯距离校正指标与标准化(距离、天气及海拔综合校正)指标。运用这些标准化度量,我们发现初始成绩较差的运动员在单赛季内进步幅度最大,且参赛频率是预测进步程度的最强指标。通过六种机器学习模型验证,随机森林模型达到最高预测精度(决定系数R²=0.92),揭示出高频参赛运动员的进步速度显著优于低频参赛者。在团队层面,常规赛季中运动员参赛至少四次的队伍进入全国赛前15名的概率显著提升(卡方检验p<0.01)。这些发现对锦标赛前尽量减少比赛的常规训练理念提出了挑战。我们的研究表明,基于数据的赛程规划策略能同时提升运动员个人发展水平和团队竞争力。NRCD为大学越野跑领域的实证决策提供了新基础,并为标准化纵向运动员表现建模的深入研究开辟了道路。

0
下载
关闭预览

相关内容

人类接受高层次教育、进行原创性研究的场所。 现在的大学一般包括一个能授予硕士和博士学位的研究生院和数个专业学院,以及能授予学士学位的一个本科生院。大学还包括高等专科学校
【AI+体育】机器学习在体育应用概述
专知会员服务
38+阅读 · 2022年4月17日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员