Simulating human profiles by instilling personas into large language models (LLMs) is rapidly transforming research in agentic behavioral simulation, LLM personalization, and human-AI alignment. However, most existing synthetic personas remain shallow and simplistic, capturing minimal attributes and failing to reflect the rich complexity and diversity of real human identities. We introduce DEEPPERSONA, a scalable generative engine for synthesizing narrative-complete synthetic personas through a two-stage, taxonomy-guided method. First, we algorithmically construct the largest-ever human-attribute taxonomy, comprising over hundreds of hierarchically organized attributes, by mining thousands of real user-ChatGPT conversations. Second, we progressively sample attributes from this taxonomy, conditionally generating coherent and realistic personas that average hundreds of structured attributes and roughly 1 MB of narrative text, two orders of magnitude deeper than prior works. Intrinsic evaluations confirm significant improvements in attribute diversity (32 percent higher coverage) and profile uniqueness (44 percent greater) compared to state-of-the-art baselines. Extrinsically, our personas enhance GPT-4.1-mini's personalized question answering accuracy by 11.6 percent on average across ten metrics and substantially narrow (by 31.7 percent) the gap between simulated LLM citizens and authentic human responses in social surveys. Our generated national citizens reduced the performance gap on the Big Five personality test by 17 percent relative to LLM-simulated citizens. DEEPPERSONA thus provides a rigorous, scalable, and privacy-free platform for high-fidelity human simulation and personalized AI research.


翻译:通过将角色注入大型语言模型(LLMs)来模拟人类档案,正在迅速改变智能体行为模拟、LLM个性化以及人机对齐领域的研究。然而,现有的大多数合成角色仍显浅薄和简化,仅捕捉了少量属性,未能反映真实人类身份的丰富复杂性和多样性。我们提出了DEEPPERSONA,这是一种可扩展的生成引擎,通过一种两阶段、分类法引导的方法来合成叙事完整的合成角色。首先,我们通过挖掘数千个真实用户与ChatGPT的对话,算法化地构建了迄今为止最大的人类属性分类法,包含数百个层次化组织的属性。其次,我们逐步从该分类法中采样属性,有条件地生成连贯且真实的角色,这些角色平均包含数百个结构化属性和约1 MB的叙事文本,深度比先前工作高出两个数量级。内在评估证实,相较于最先进的基线方法,在属性多样性(覆盖度提高32%)和档案独特性(提升44%)方面均有显著改进。外在评估中,我们的角色将GPT-4.1-mini在个性化问答任务上的准确率平均提升了11.6%(基于十项指标),并在社会调查中大幅缩小(31.7%)了模拟LLM公民与真实人类回答之间的差距。我们生成的国民角色在“大五”人格测试上的表现差距相较于LLM模拟公民缩小了17%。因此,DEEPPERSONA为高保真人类模拟和个性化AI研究提供了一个严谨、可扩展且无需隐私数据的平台。

0
下载
关闭预览

相关内容

一个具体事物,总是有许许多多的性质与关系,我们把一个事物的性质与关系,都叫作事物的属性。 事物与属性是不可分的,事物都是有属性的事物,属性也都是事物的属性。 一个事物与另一个事物的相同或相异,也就是一个事物的属性与另一事物的属性的相同或相异。 由于事物属性的相同或相异,客观世界中就形成了许多不同的事物类。具有相同属性的事物就形成一类,具有不同属性的事物就分别地形成不同的类。
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员