Large Language Models have vastly grown in capabilities. One proposed application of such AI systems is to support data collection in the social and cognitive sciences, where perfect experimental control is currently unfeasible and the collection of large, representative datasets is generally expensive. In this paper, we re-replicate 14 studies from the Many Labs 2 replication project with OpenAI's text-davinci-003 model, colloquially known as GPT3.5. We collected responses from the default setting of GPT3.5 by inputting each study's survey as text. Among the eight studies we could analyse, our GPT sample replicated 37.5% of the original results as well as 37.5% of the Many Labs 2 results. Unexpectedly, we could not analyse the remaining six studies as we had planned in our pre-registration. This was because for each of these six studies, GPT3.5 answered at least one of the survey questions (either a dependent variable or a condition variable) in an extremely predetermined way: an unexpected phenomenon we call the "correct answer" effect. Different runs of GPT3.5 answered nuanced questions probing political orientation, economic preference, judgement, and moral philosophy with zero or near-zero variation in responses: with the supposedly "correct answer." For example, our survey questions found the default setting of GPT3.5 to almost always self-identify as a maximally strong conservative (99.6%, N=1,030), and to always be morally deontological in opposing the hypothetical pushing of a large man in front of an incoming trolley to save the lives of five people (100%, N=1,030). Since AI models of the future may be trained on much of the same data as GPT3.5, training data from which GPT3.5 may have learned its supposedly "correct answers," our results raise concerns that a hypothetical AI-led future may in certain ways be subject to a diminished diversity of thought.
翻译:大型语言模型在能力方面有了巨大的发展。 提议应用这样的AI系统的一个应用是支持社会和认知科学的数据收集。 在社会和认知科学中,完美的实验控制目前不可行,收集大量具有代表性的数据集的费用一般是昂贵的。 在本文中,我们重复了许多实验室2复制项目的14项研究,使用OpenAI的文本-davinci-003模型, 俗称GPT3.5。 我们从GPT3.5默认设置中收集了答复,将每份研究的答案输入为文本。在我们可以分析的八项研究中,我们的GPT3.5样本复制了最初结果的37.5%,以及许多实验室2结果的37.5%。 意外的是,我们无法按照我们在预登记中计划的那样,对其余6项实验室2复制项目的14项研究进行重复。 这是因为,GPT3.5至少回答了其中的1项调查问题(要么是依赖变量,要么是条件变量)以非常预先确定的方式从GPT3.5默认的答案中收集了。 我们称之为“正确的答案 ” 效果。 GPT3.5的未来样本中的不同解点回答问题, 接近的答案是“ ”,, 直径直径直调的答案是“ 。 。 。 。 。 。 。 直调的答案是G 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 G 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 “ 。 。 。 。 。 “ 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 </s>