Title: 聊天GPT和Bard能否生成对齐的评估题目？针对人类表现的可靠性分析 Abstract: 聊天GPT和Bard是基于大型语言模型的AI chatbot，被指定为在不同领域中承诺不同应用的技术。在教育方面，这些AI技术已经测试用于评估和教学的应用。在评估中，AI长期以来已经被用于自动化论文评分和自动化项目生成。这些工具必须具有高可靠性，以在评估中协助或替换人类，即AI得分和人类评分之间的一致性。在本文中，我们通过训练有素的人类来衡量OpenAI ChatGPT和Google Bard LLMs工具对写作提示复杂性的感知和评分的可靠性。作为绩效指标的ICC显示，OpenAI ChatGPT和Google Bard的相互可靠性与人类评分的黄金标准相比很低。 (Can ChatGPT and Bard Generate Aligned Assessment Items? A Reliability Analysis against Human Performance) - 专知论文

会员服务 ·

0

ICC · 高可靠 · 人类表现 · 高可靠性 · OpenAI ·

2023 年 4 月 9 日

Can ChatGPT and Bard Generate Aligned Assessment Items? A Reliability Analysis against Human Performance

翻译：Title: 聊天GPT和Bard能否生成对齐的评估题目？针对人类表现的可靠性分析 Abstract: 聊天GPT和Bard是基于大型语言模型的AI chatbot，被指定为在不同领域中承诺不同应用的技术。在教育方面，这些AI技术已经测试用于评估和教学的应用。在评估中，AI长期以来已经被用于自动化论文评分和自动化项目生成。这些工具必须具有高可靠性，以在评估中协助或替换人类，即AI得分和人类评分之间的一致性。在本文中，我们通过训练有素的人类来衡量OpenAI ChatGPT和Google Bard LLMs工具对写作提示复杂性的感知和评分的可靠性。作为绩效指标的ICC显示，OpenAI ChatGPT和Google Bard的相互可靠性与人类评分的黄金标准相比很低。

Abdolvahab Khademi

ChatGPT and Bard are AI chatbots based on Large Language Models (LLM) that are slated to promise different applications in diverse areas. In education, these AI technologies have been tested for applications in assessment and teaching. In assessment, AI has long been used in automated essay scoring and automated item generation. One psychometric property that these tools must have to assist or replace humans in assessment is high reliability in terms of agreement between AI scores and human raters. In this paper, we measure the reliability of OpenAI ChatGP and Google Bard LLMs tools against experienced and trained humans in perceiving and rating the complexity of writing prompts. Intraclass correlation (ICC) as a performance metric showed that the inter-reliability of both the OpenAI ChatGPT and the Google Bard were low against the gold standard of human ratings.

翻译：

0

相关内容

ICC

ICC：IEEE International Conference on Communications。 Explanation：IEEE国际通信会议。 Publisher：IEEE。 SIT： http://dblp.uni-trier.de/db/conf/icc/

从ChatGPT看AI未来趋势和挑战 | 万字长文

从ChatGPT看AI未来趋势和挑战 | 万字长文

专知会员服务

174+阅读 · 2023年4月18日

人机协作 |《人类-自主性协同编队信任工具包（HAT3）》美陆军28页报告

人机协作 |《人类-自主性协同编队信任工具包（HAT3）》美陆军28页报告

专知会员服务

73+阅读 · 2023年4月16日

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

Into the Metaverse，93页ppt介绍元宇宙概念、应用、趋势

Into the Metaverse，93页ppt介绍元宇宙概念、应用、趋势

专知会员服务

49+阅读 · 2022年2月19日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

104+阅读 · 2022年2月10日

神经文本生成可用么？斯坦福Abigail博士论文《开放式文本和对话的神经生成》，192页pdf

专知会员服务

26+阅读 · 2021年9月1日

人工智能如何用于抵抗COVID-19？Mila这份《AI against COVID-19 》PPT

专知会员服务

48+阅读 · 2020年5月17日

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

专知会员服务

97+阅读 · 2020年4月10日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

专知

12+阅读 · 2018年4月26日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

用于钙钛矿/体异质结集成太阳电池的新型电子传输层材料

国家自然科学基金

0+阅读 · 2015年12月31日

面向协作生成服务的社交搜索研究

国家自然科学基金

0+阅读 · 2013年12月31日

用户自适应的社会标签生成和优化模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

多天线无线通信系统的鲁棒性设计

国家自然科学基金

2+阅读 · 2012年12月31日

用于EPICS输入输出控制器的冗余技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

可信软件及服务的度量、评估、认证体系标准研究

国家自然科学基金

3+阅读 · 2011年12月31日

六面体网格质量改善研究及软件开发

国家自然科学基金

0+阅读 · 2009年12月31日

面向缺陷的软件系统可靠性管理规范的研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多状态Markov模型和健康相关生存质量的阿尔茨海默病进程定量研究

国家自然科学基金

0+阅读 · 2009年12月31日

组合Web服务的建模与验证

国家自然科学基金

1+阅读 · 2008年12月31日

Evaluating and Detecting ChatGPT's Responses on Abstractive Summarization

Arxiv

0+阅读 · 2023年5月29日

The Utility of Large Language Models and Generative AI for Education Research

Arxiv

0+阅读 · 2023年5月29日

Large Language Models are not Fair Evaluators

Arxiv

0+阅读 · 2023年5月29日

Generating EDU Extracts for Plan-Guided Summary Re-Ranking

Arxiv

0+阅读 · 2023年5月28日

Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for Instruction Generation Models

Arxiv

0+阅读 · 2023年5月28日

Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems

Arxiv

0+阅读 · 2023年5月26日

Domain Aligned Prefix Averaging for Domain Generalization in Abstractive Summarization

Arxiv

0+阅读 · 2023年5月26日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Arxiv

11+阅读 · 2019年11月4日

VIP会员

文章信息

相关主题

相关VIP内容

从ChatGPT看AI未来趋势和挑战 | 万字长文

从ChatGPT看AI未来趋势和挑战 | 万字长文

专知会员服务

174+阅读 · 2023年4月18日

人机协作 |《人类-自主性协同编队信任工具包（HAT3）》美陆军28页报告

人机协作 |《人类-自主性协同编队信任工具包（HAT3）》美陆军28页报告

专知会员服务

73+阅读 · 2023年4月16日

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

Into the Metaverse，93页ppt介绍元宇宙概念、应用、趋势

Into the Metaverse，93页ppt介绍元宇宙概念、应用、趋势

专知会员服务

49+阅读 · 2022年2月19日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

104+阅读 · 2022年2月10日

神经文本生成可用么？斯坦福Abigail博士论文《开放式文本和对话的神经生成》，192页pdf

专知会员服务

26+阅读 · 2021年9月1日

人工智能如何用于抵抗COVID-19？Mila这份《AI against COVID-19 》PPT

专知会员服务

48+阅读 · 2020年5月17日

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

专知会员服务

97+阅读 · 2020年4月10日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

Deep Research（深度研究）：系统性综述

《革新战术战场空间能力：反无人机系统》报告

【普林斯顿博士论文】用于语音的生成式通用模型

螺旋式开发作为战略资产：美军启示

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

专知

12+阅读 · 2018年4月26日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

Evaluating and Detecting ChatGPT's Responses on Abstractive Summarization

Arxiv

0+阅读 · 2023年5月29日

The Utility of Large Language Models and Generative AI for Education Research

Arxiv

0+阅读 · 2023年5月29日

Large Language Models are not Fair Evaluators

Arxiv

0+阅读 · 2023年5月29日

Generating EDU Extracts for Plan-Guided Summary Re-Ranking

Arxiv

0+阅读 · 2023年5月28日

Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for Instruction Generation Models

Arxiv

0+阅读 · 2023年5月28日

Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems

Arxiv

0+阅读 · 2023年5月26日

Domain Aligned Prefix Averaging for Domain Generalization in Abstractive Summarization

Arxiv

0+阅读 · 2023年5月26日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Arxiv

11+阅读 · 2019年11月4日

相关基金

用于钙钛矿/体异质结集成太阳电池的新型电子传输层材料

国家自然科学基金

0+阅读 · 2015年12月31日

面向协作生成服务的社交搜索研究

国家自然科学基金

0+阅读 · 2013年12月31日

用户自适应的社会标签生成和优化模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

多天线无线通信系统的鲁棒性设计

国家自然科学基金

2+阅读 · 2012年12月31日

用于EPICS输入输出控制器的冗余技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

可信软件及服务的度量、评估、认证体系标准研究

国家自然科学基金

3+阅读 · 2011年12月31日

六面体网格质量改善研究及软件开发

国家自然科学基金

0+阅读 · 2009年12月31日

面向缺陷的软件系统可靠性管理规范的研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多状态Markov模型和健康相关生存质量的阿尔茨海默病进程定量研究

国家自然科学基金

0+阅读 · 2009年12月31日

组合Web服务的建模与验证

国家自然科学基金

1+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员