机器翻译质量评估中的误差分析促进了大型语言模型产生类人评估关于ChatGPT的案例研究 (Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models: A Case Study on ChatGPT) - 专知论文

会员服务 ·

0

误差分析 · 机器翻译 · ChatGPT · 质量评估 · 差分 ·

2023 年 3 月 24 日

Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models: A Case Study on ChatGPT

翻译：机器翻译质量评估中的误差分析促进了大型语言模型产生类人评估关于ChatGPT的案例研究

Qingyu Lu,Baopu Qiu,Liang Ding,Liping Xie,Dacheng Tao

Generative large language models (LLMs), e.g., ChatGPT, have demonstrated remarkable proficiency across several NLP tasks such as machine translation, question answering, text summarization, and natural language understanding. Recent research has shown that utilizing ChatGPT for assessing the quality of machine translation (MT) achieves state-of-the-art performance at the system level but performs poorly at the segment level. To further improve the performance of LLMs on MT quality assessment, we conducted an investigation into several prompting methods. Our results indicate that by combining Chain-of-Thoughts and Error Analysis, a new prompting method called \textbf{\texttt{Error Analysis Prompting}}, LLMs like ChatGPT can \textit{generate human-like MT evaluations at both the system and segment level}. Additionally, we discovered some limitations of ChatGPT as an MT evaluator, such as unstable scoring and biases when provided with multiple translations in a single query. Our findings aim to provide a preliminary experience for appropriately evaluating translation quality on ChatGPT while offering a variety of tricks in designing prompts for in-context learning. We anticipate that this report will shed new light on advancing the field of translation evaluation with LLMs by enhancing both the accuracy and reliability of metrics. The project can be found in \url{https://github.com/Coldmist-Lu/ErrorAnalysis_Prompt}.

翻译：生成性大型语言模型 (LLMs)，例如 ChatGPT，在多个 NLP 任务（如机器翻译、问答、文本摘要和自然语言理解）中表现出了出色的技能。最近的研究表明，利用 ChatGPT 评估机器翻译质量在系统级别上实现了最先进的性能，但在区段级别上表现不佳。为进一步提高 LLMs 在机器翻译质量评估上的性能，我们进行了几种提示方法的调查。我们的结果表明，通过结合思维链和错误分析，一种新的提示方法称为 “误差分析提示”，LLMs（如 ChatGPT）可以在系统和区段级别上生成类人机器翻译评估。此外，我们发现了一些 ChatGPT 作为机器翻译评估器的局限，例如在单个查询中提供多个翻译时得分不稳定且具有偏差。我们的发现旨在为在上下文学习中设计提示提供各种技巧，同时为推进 LLMs 领域的翻译评估提供足够的准确性和可靠性度量标准。此项目可在 \url{https://github.com/Coldmist-Lu/ErrorAnalysis_Prompt} 中找到。

0

相关内容

误差分析

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

50+阅读 · 2022年10月2日

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

125+阅读 · 2022年4月21日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

139+阅读 · 2020年7月10日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

现代深度学习技术在自然语言处理的应用（Modern Deep Learning Techniques Applied to Natural Language Processing）

现代深度学习技术在自然语言处理的应用（Modern Deep Learning Techniques Applied to Natural Language Processing）

专知会员服务

53+阅读 · 2020年4月7日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

论文浅尝 | Language Models (Mostly) Know What They Know

论文浅尝 | Language Models (Mostly) Know What They Know

开放知识图谱

2+阅读 · 2022年11月18日

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知

4+阅读 · 2022年10月2日

NAACL 2022 | 基于Prompt的文本生成迁移学习

NAACL 2022 | 基于Prompt的文本生成迁移学习

PaperWeekly

1+阅读 · 2022年8月31日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

AINLP

10+阅读 · 2019年2月9日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

13+阅读 · 2018年6月24日

Lnc-TRMT2A竞争性结合miR-520a调控炎性通路在精神分裂症发病中的作用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率盒理论的电网规划决策不确定性建模及风险评估研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于组织内源性干细胞分子病理分析和干预的自发性骨关节炎模型的鉴定和比较研究

国家自然科学基金

0+阅读 · 2014年12月31日

数字基因表达谱及混合模型研究稻瘟病菌细胞自噬与相关通路基因互作

国家自然科学基金

0+阅读 · 2013年12月31日

MG132通过上调Nrf2/ARE信号通路治疗糖尿病肾病的实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

脑肠肽ghrelin与帕金森病早期发生发展的关系研究

国家自然科学基金

0+阅读 · 2011年12月31日

改进Max-SAT算法的关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

棉花品种资源群体产量与纤维品质性状相关基因的关联分析

国家自然科学基金

0+阅读 · 2009年12月31日

冲击与火作用下弹塑性梁的动力响应及LTB研究

国家自然科学基金

0+阅读 · 2008年12月31日

艾滋病自然感染与疫苗诱导产生抗体的鉴别研究

国家自然科学基金

0+阅读 · 2008年12月31日

Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue: An Empirical Study

Arxiv

0+阅读 · 2023年5月15日

Evaluating Open-Domain Question Answering in the Era of Large Language Models

Arxiv

0+阅读 · 2023年5月14日

Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation

Arxiv

0+阅读 · 2023年5月12日

Perturbation-based QE: An Explainable, Unsupervised Word-level Quality Estimation Method for Blackbox Machine Translation

Arxiv

0+阅读 · 2023年5月12日

MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large Language Models in Medicine

Arxiv

0+阅读 · 2023年5月12日

ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations

Arxiv

0+阅读 · 2023年5月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

An Overview on Machine Translation Evaluation

An Overview on Machine Translation Evaluation

Arxiv

14+阅读 · 2022年2月22日

K-BERT: Enabling Language Representation with Knowledge Graph

K-BERT: Enabling Language Representation with Knowledge Graph

Arxiv

19+阅读 · 2019年9月17日

VIP会员

文章信息

相关主题

相关VIP内容

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

50+阅读 · 2022年10月2日

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

125+阅读 · 2022年4月21日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

139+阅读 · 2020年7月10日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

现代深度学习技术在自然语言处理的应用（Modern Deep Learning Techniques Applied to Natural Language Processing）

现代深度学习技术在自然语言处理的应用（Modern Deep Learning Techniques Applied to Natural Language Processing）

专知会员服务

53+阅读 · 2020年4月7日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军特种作战条令》最新102页

《洛克希德SR-71“黑鸟”侦察机动力系统》21页slides

美空军作战实验室通过人工智能和指挥控制技术创新推进杀伤链

《指挥控制能力分析方法论》最新报告

相关资讯

论文浅尝 | Language Models (Mostly) Know What They Know

论文浅尝 | Language Models (Mostly) Know What They Know

开放知识图谱

2+阅读 · 2022年11月18日

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知

4+阅读 · 2022年10月2日

NAACL 2022 | 基于Prompt的文本生成迁移学习

NAACL 2022 | 基于Prompt的文本生成迁移学习

PaperWeekly

1+阅读 · 2022年8月31日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

AINLP

10+阅读 · 2019年2月9日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

13+阅读 · 2018年6月24日

相关论文

Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue: An Empirical Study

Arxiv

0+阅读 · 2023年5月15日

Evaluating Open-Domain Question Answering in the Era of Large Language Models

Arxiv

0+阅读 · 2023年5月14日

Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation

Arxiv

0+阅读 · 2023年5月12日

Perturbation-based QE: An Explainable, Unsupervised Word-level Quality Estimation Method for Blackbox Machine Translation

Arxiv

0+阅读 · 2023年5月12日

MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large Language Models in Medicine

Arxiv

0+阅读 · 2023年5月12日

ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations

Arxiv

0+阅读 · 2023年5月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

An Overview on Machine Translation Evaluation

An Overview on Machine Translation Evaluation

Arxiv

14+阅读 · 2022年2月22日

K-BERT: Enabling Language Representation with Knowledge Graph

K-BERT: Enabling Language Representation with Knowledge Graph

Arxiv

19+阅读 · 2019年9月17日

相关基金

Lnc-TRMT2A竞争性结合miR-520a调控炎性通路在精神分裂症发病中的作用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率盒理论的电网规划决策不确定性建模及风险评估研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于组织内源性干细胞分子病理分析和干预的自发性骨关节炎模型的鉴定和比较研究

国家自然科学基金

0+阅读 · 2014年12月31日

数字基因表达谱及混合模型研究稻瘟病菌细胞自噬与相关通路基因互作

国家自然科学基金

0+阅读 · 2013年12月31日

MG132通过上调Nrf2/ARE信号通路治疗糖尿病肾病的实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

脑肠肽ghrelin与帕金森病早期发生发展的关系研究

国家自然科学基金

0+阅读 · 2011年12月31日

改进Max-SAT算法的关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

棉花品种资源群体产量与纤维品质性状相关基因的关联分析

国家自然科学基金

0+阅读 · 2009年12月31日

冲击与火作用下弹塑性梁的动力响应及LTB研究

国家自然科学基金

0+阅读 · 2008年12月31日

艾滋病自然感染与疫苗诱导产生抗体的鉴别研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员