从用户实际使用角度出发,归总出五大一级评测维度,以构建全面科学的评估体系
本次大语言模型评测以用户使用体验和实际使用价值为基准,综合考量知识能力、语言能力、道德风险、行业能力及综合能力五大核心一级维度,并进一步细化为风险信息识别、逻辑推理、类比迁移、角色扮演等多个二级维度,以构建全面、科学的评估体系,确保准确衡量模型的优势与不足。 2024年大语言模型综合评测显示,国际领先模型在通用基础能力和专业应用能力上略优于中国领先模型,其中文心、GPT3.5和通义千问位居第一梯队 根据2024年大语言模型综合评测结果来看,国际领先的模型整体水平略优于中国领先大语言模型的均线。根据国际大语言模型均线、中国大语言模型均线划分出了三个梯队,第一梯队包括文心、GPT3.5以及通义千问;第二梯队包括360智脑、商汤商量、智谱AI、中科闻歌雅意以及腾讯混元;第三梯队包括Minimax、面壁智能、紫东太初、百川智能以及昆仑天工。