There is ongoing debate about whether large language models (LLMs) can serve as substitutes for human participants in survey and experimental research. While recent work in fields such as marketing and psychology has explored the potential of LLM-based simulation, a growing body of evidence cautions against this practice: LLMs often fail to align with real human behavior, exhibiting limited diversity, systematic misalignment for minority subgroups, insufficient within-group variance, and discrepancies between stated beliefs and actions. This study examines an important and distinct question in this domain: whether fine-tuning on a small subset of human survey data, such as that obtainable from a pilot study, can mitigate these issues and yield realistic simulated outcomes. Using a behavioral experiment on information disclosure, we compare human and LLM-generated responses across multiple dimensions, including distributional divergence, subgroup alignment, belief-action coherence, and the recovery of regression coefficients. We find that fine-tuning on small human samples substantially improves heterogeneity, alignment, and belief-action coherence relative to the base model. However, even the best-performing fine-tuned models fail to reproduce the regression coefficients of the original study, suggesting that LLM-generated data remain unsuitable for replacing human participants in formal inferential analyses.


翻译:当前学术界围绕大型语言模型(LLMs)能否替代人类参与者参与调查与实验研究存在持续争论。尽管近期在市场营销、心理学等领域的研究已探索基于LLM的仿真潜力,但越来越多的证据警示这一实践存在局限:LLMs常难以与真实人类行为对齐,表现为多样性有限、对少数亚群体的系统性错位、组内方差不足以及陈述信念与实际行为间的差异。本研究探讨该领域一个重要且独特的问题:基于小规模人类调查数据(例如通过预实验可获得的数据)进行微调,能否缓解这些问题并产生真实的仿真结果。通过一项关于信息披露的行为实验,我们从多个维度比较人类与LLM生成的响应,包括分布差异、亚群体对齐性、信念-行为一致性以及回归系数的还原度。研究发现,相较于基础模型,基于小规模人类样本的微调显著提升了异质性、对齐性与信念-行为一致性。然而,即使表现最优的微调模型仍未能复现原始研究的回归系数,这表明LLM生成的数据在正式推断分析中仍无法替代人类参与者。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
可解释人工智能中的大语言模型:全面综述
专知会员服务
53+阅读 · 2025年4月2日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关VIP内容
PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
可解释人工智能中的大语言模型:全面综述
专知会员服务
53+阅读 · 2025年4月2日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员