The growing use of artificial intelligence (AI) raises concerns of knowledge collapse, i.e., a reduction to the most dominant and central set of ideas. Prior work has demonstrated single-model collapse, defined as performance decay in an AI model trained on its own output. Inspired by ecology, we ask whether AI ecosystem diversity, that is, diversity among models, can mitigate such a collapse. We build on the single-model approach but focus on ecosystems of models trained on their collective output. To study the effect of diversity on model performance, we segment the training data across language models and evaluate the resulting ecosystems over ten, self-training iterations. We find that increased epistemic diversity mitigates collapse, but, interestingly, only up to an optimal level. Our results suggest that an ecosystem containing only a few diverse models fails to express the rich mixture of the full, true distribution, resulting in rapid performance decay. Yet distributing the data across too many models reduces each model's approximation capacity on the true distribution, leading to poor performance already in the first iteration step. In the context of AI monoculture, our results suggest the need to monitor diversity across AI systems and to develop policies that incentivize more domain- and community-specific models.


翻译:人工智能(AI)的日益广泛应用引发了人们对知识坍缩的担忧,即知识体系缩减至最具主导性和中心性的思想集合。先前研究已证实单模型坍缩现象,即基于自身输出训练的AI模型出现性能衰减。受生态学启发,我们探讨AI生态系统多样性——即模型间的多样性——能否缓解此类坍缩。我们在单模型研究基础上,聚焦于基于集体输出训练的模型生态系统。为探究多样性对模型性能的影响,我们将训练数据在语言模型间进行分割,并对由此形成的生态系统进行十次自训练迭代评估。研究发现,增强认知多样性可缓解坍缩,但有趣的是,仅在一定最优水平内有效。结果表明,仅包含少数多样化模型的生态系统难以表达完整真实分布的丰富混合性,导致性能快速衰减;而将数据分散于过多模型则会削弱每个模型对真实分布的逼近能力,在首次迭代步骤即导致性能低下。在AI单一文化背景下,本研究提示需要监测AI系统间的多样性,并制定激励开发更多领域与社区特异性模型的策略。

0
下载
关闭预览

相关内容

多智能体协作机制:大语言模型综述
专知会员服务
65+阅读 · 3月4日
大语言模型增强知识表示学习综述
专知会员服务
68+阅读 · 2024年7月2日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
86+阅读 · 2024年5月3日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员