论文题目:CKnowEdit: A New Chinese Knowledge Editing Dataset for Linguistics, Facts, and Logic Error Correction in LLMs
本文作者:Jizhan Fang, Tianhe Lu, Yunzhi Yao, Ziyan Jiang, Xin Xu, Huajun Chen, Ningyu Zhang
发表会议:ACL 2025
论文链接:https://arxiv.org/abs/2409.05806
代码链接:https://zjunlp.github.io/project/CKnowEdit/
欢迎转载,转载请注明出处****
在当前大模型快速发展的背景下,模型固有知识的更新能力成为研究焦点。尽管已有大量知识编辑研究集中于英语及其维基百科语料,但中文作为具有深厚文化底蕴和复杂语言结构的语言系统,在知识编辑研究中仍显不足。 本文介绍发表于ACL 2025的研究成果——CKnowEdit,这是专为面向中文语言的的知识编辑数据集,涵盖中文语言的语言性、事实性与逻辑性错误。 一、背景与动机
当前主流的大语言模型(LLMs)由于其基于静态训练语料,缺乏显式知识结构,往往会产生幻觉(hallucination)、偏见、甚至不当输出。在面对中文语境时,模型能力瓶颈尤为明显,原因在于:
**
**
二、数据集设计:三大类十子类
CKnowEdit数据类型 CKnowEdit从上述三个挑战出发,将知识错误划分为三大类,共十个子类,涵盖语言现象、事实知识与逻辑误判:
**
**
三、数据构建流程
CKnowEdit构建流程
**
**
四、模型评估与实验结果
CKnowEdit实验主表
选用主流五种知识编辑方法(如AdaLoRA、ROME、AlphaEdit等),在四个主流中文大模型(Qwen、Qwen2、DeepSeek、Baichuan)上进行实验。
摒弃token级评估,改用开放生成任务 + GPT-4o评分器的“LLM-as-a-judge”机制,评估维度包括:
编辑成功率(Edit Success, ES)
弱泛化能力(Generalization, Gen)
强泛化能力(Portability, Por)
局部性(Locality, Loc)
**
**
五、数据集价值与意义
CKnowEdit的提出具有如下意义:
该数据集不仅能推动中文模型微调与校正,也为多语言知识编辑研究提供了对照样本。 六、开源信息
**
**
七、关于CKnowEdit的CCKS2025评测大赛
为了更好的研究中文编辑所存在的难点和困境,我们与CCKS协会联合阿里云天池平台共同举办了以CKnowEdit为赛题数据的大模型中文知识编辑大赛。
singleton edit
设定,复赛为continues edit
设定。欢迎感兴趣的各位同学、老师或者是业界同行来参加我们的比赛,一起交流玩耍!