As large language models (LLMs) gain popularity among speakers of diverse languages, we believe that it is crucial to benchmark them to better understand model behaviors, failures, and limitations in languages beyond English. In this work, we evaluate LLM APIs (ChatGPT, GPT-3, and GPT-4) on the Japanese national medical licensing examinations from the past five years. Our team comprises native Japanese-speaking NLP researchers and a practicing cardiologist based in Japan. Our experiments show that GPT-4 outperforms ChatGPT and GPT-3 and passes all five years of the exams, highlighting LLMs' potential in a language that is typologically distant from English. However, our evaluation also exposes critical limitations of the current LLM APIs. First, LLMs sometimes select prohibited choices that should be strictly avoided in medical practice in Japan, such as suggesting euthanasia. Further, our analysis shows that the API costs are generally higher and the maximum context size is smaller for Japanese because of the way non-Latin scripts are currently tokenized in the pipeline. We release our benchmark as Igaku QA as well as all model outputs and exam metadata. We hope that our results and benchmark will spur progress on more diverse applications of LLMs. Our benchmark is available at https://github.com/jungokasai/IgakuQA.


翻译:随着大型语言模型(LLMs)在不同语种的使用者中变得越来越受欢迎,我们相信对它们进行基准测试以更好地理解模型在非英语语种中的行为、失灵和局限性是至关重要的。在这项工作中,我们评估了LLM API(ChatGPT、GPT-3和GPT-4)在过去五年的日本国家医疗执业考试中的表现。我们的团队由母语为日语的NLP研究人员和驻日本的实践心脏病医生组成。我们的实验表明,GPT-4的表现优于ChatGPT和GPT-3,并通过了所有五年的考试,突显了LLMs在与英语有巨大差距的语言中的潜力。但是,我们的评估也揭示了当前LLM APIs的关键局限。首先,LLMs有时会选择在日本医疗实践中严格避免的禁止选项,例如建议实施安乐死。此外,我们的分析显示,由于非拉丁脚本在管道中的标记方式,日本语的API成本通常较高,最大上下文大小较小。我们发布我们的基准测试作为“Igaku QA”,以及所有模型输出和考试元数据。我们希望我们的结果和基准测试将促进LLMs更多种的应用的进展。我们的基准测试可以在 https://github.com/jungokasai/IgakuQA 上找到。

0
下载
关闭预览

相关内容

日本国位于东亚,是由日本列岛(北海道·本州·四国·九州及其相关岛屿),及南西诸岛,小笠原诸岛等众岛屿组成的岛国。国土面积377,961,73k㎡(62位)。人口总数一亿2688万人(2015年)(10位)。公用语,日本语。国歌,《君が代》,首都,东京都。
130亿参数,8个A100训练,UC伯克利发布对话模型Koala
专知会员服务
43+阅读 · 2023年4月5日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
118+阅读 · 2022年4月21日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2023年5月19日
VIP会员
相关VIP内容
130亿参数,8个A100训练,UC伯克利发布对话模型Koala
专知会员服务
43+阅读 · 2023年4月5日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
118+阅读 · 2022年4月21日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员