Autonomous agents powered by LLMs and Retrieval-Augmented Generation (RAG) are proficient consumers of digital content but remain unidirectional, a limitation we term epistemic asymmetry. This isolation leads to redundant reasoning and stagnates collective intelligence. Current self-reflection frameworks remain largely heuristic and private, lacking a probabilistic foundation to quantify certainty or justify external interaction.To bridge this gap, we propose a formal probabilistic framework that provides agents with a non-altruistic motive for bidirectional knowledge exchange. We model an agent's belief in a proposition using a Beta-Bernoulli distribution with a forgetting factor ($γ$). This allows us to isolate epistemic uncertainty as the variance of belief, establishing a dual drive for interaction: A homeostatic motive: The need to maintain certainty against the temporal decay introduced by $γ$. An optimal learning strategy: Targeting points of maximum ambiguity ($\mathbb{E}[θ]=0.5$) to maximize information gain. Under this framework, public contribution is reframed as optimal active learning: sharing solutions to elicit feedback is the most efficient method for an agent to reduce its own uncertainty. To ensure scalability, we introduce epistemic caching, which leverages the forgetting factor to dynamically prioritize resources for the active head of non-stationary knowledge distributions. Finally, we demonstrate how these accumulated belief states serve as verifiable reward signals for Reinforcement Learning from Human Feedback (RLHF) and high-quality data filters for Supervised Fine-Tuning (SFT). Simulation results validate that this uncertainty-driven strategy significantly outperforms random baselines in heterogeneous (Zipfian) environments, maintaining high adaptability to concept drift.


翻译:基于大语言模型(LLM)与检索增强生成(RAG)的自主智能体虽能熟练消费数字内容,但其认知过程本质上是单向的,我们将这一局限称为认知不对称。这种孤立性导致推理冗余并阻碍集体智能的发展。现有的自我反思框架大多停留在启发式与私有化层面,缺乏量化确定性或论证外部交互的概率基础。为弥合此鸿沟,我们提出一个形式化的概率框架,为智能体提供非利他性的双向知识交换动机。我们采用带遗忘因子($γ$)的Beta-Bernoulli分布对智能体关于命题的信念进行建模,从而将认知不确定性分离为信念的方差,并建立双重交互驱动力:稳态动机:需要维持确定性以对抗$γ$引入的时间衰减效应;最优学习策略:以最大模糊点($\mathbb{E}[θ]=0.5$)为目标实现信息增益最大化。在此框架下,公共贡献被重新定义为最优主动学习:分享解决方案以获取反馈成为智能体降低自身不确定性的最高效途径。为确保可扩展性,我们提出认知缓存机制,利用遗忘因子动态优化资源分配,聚焦非平稳知识分布的活跃前沿。最后,我们论证了这些累积的信念状态如何作为人类反馈强化学习(RLHF)的可验证奖励信号,以及监督微调(SFT)的高质量数据过滤器。仿真实验表明,在异构(齐夫分布)环境中,这种不确定性驱动策略显著优于随机基线,并保持对概念漂移的高适应能力。

0
下载
关闭预览

相关内容

本话题关于日常用语「概率」,用于讨论生活中的运气、机会,及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论,请转 概率(数学)话题。
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员