This paper introduces a confidence-weighted, credibility-aware ensemble framework for text-based emotion detection, inspired by Condorcet's Jury Theorem (CJT). Unlike conventional ensembles that often rely on homogeneous architectures, our approach combines architecturally diverse small transformer-based large language models (sLLMs) - BERT, RoBERTa, DistilBERT, DeBERTa, and ELECTRA, each fully fine-tuned for emotion classification. To preserve error diversity, we minimize parameter convergence while taking advantage of the unique biases of each model. A dual-weighted voting mechanism integrates both global credibility (validation F1 score) and local confidence (instance-level probability) to dynamically weight model contributions. Experiments on the DAIR-AI dataset demonstrate that our credibility-confidence ensemble achieves a macro F1 score of 93.5 percent, surpassing state-of-the-art benchmarks and significantly outperforming large-scale LLMs, including Falcon, Mistral, Qwen, and Phi, even after task-specific Low-Rank Adaptation (LoRA). With only 595M parameters in total, our small LLMs ensemble proves more parameter-efficient and robust than models up to 7B parameters, establishing that carefully designed ensembles of small, fine-tuned models can outperform much larger LLMs in specialized natural language processing (NLP) tasks such as emotion detection.


翻译:本文受孔多塞陪审团定理(CJT)启发,提出一种基于置信度加权和可信度感知的集成框架,用于文本情感检测。与传统常依赖同质架构的集成方法不同,我们的方法结合了架构多样的小型基于Transformer的大语言模型(sLLM)——包括BERT、RoBERTa、DistilBERT、DeBERTa和ELECTRA,每个模型均针对情感分类任务进行了完整微调。为保持误差多样性,我们在利用各模型独特偏置的同时,最小化参数收敛性。一种双加权投票机制整合了全局可信度(验证集F1分数)和局部置信度(实例级概率),以动态加权各模型的贡献。在DAIR-AI数据集上的实验表明,我们的可信度-置信度集成方法取得了93.5%的宏F1分数,超越了现有最优基准,并显著优于包括Falcon、Mistral、Qwen和Phi在内的大型LLM,即使这些大型模型经过任务特定的低秩自适应(LoRA)微调。我们的集成模型总参数量仅为5.95亿,相比参数量高达70亿的模型,证明了其在参数效率和鲁棒性上的优势,从而确立了在情感检测等专业自然语言处理(NLP)任务中,精心设计的小型微调模型集成能够超越规模大得多的LLM。

0
下载
关闭预览

相关内容

 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员