Crowdsourcing is a popular paradigm for soliciting forecasts on future events. As people may have different forecasts, how to aggregate solicited forecasts into a single accurate prediction remains to be an important challenge, especially when no historical accuracy information is available for identifying experts. In this paper, we borrow ideas from the peer prediction literature and assess the prediction accuracy of participants using solely the collected forecasts. This approach leverages the correlations among peer reports to cross-validate each participant's forecasts and allows us to assign a "peer assessment score (PAS)" for each agent as a proxy for the agent's prediction accuracy. We identify several empirically effective methods to generate PAS and propose an aggregation framework that uses PAS to identify experts and to boost existing aggregators' prediction accuracy. We evaluate our methods over 14 real-world datasets and show that i) PAS generated from peer prediction methods can approximately reflect the prediction accuracy of agents, and ii) our aggregation framework demonstrates consistent and significant improvement in the prediction accuracy over existing aggregators for both binary and multi-choice questions under three popular accuracy measures: Brier score (mean square error), log score (cross-entropy loss) and AUC-ROC.


翻译:由于人们可能有不同的预测,如何将索取的预测汇总成单一准确的预测仍是一项重大挑战,特别是当没有历史准确性信息可供鉴定专家时。在本文中,我们借用同行预测文献中的想法,并评估仅使用所收集的预测的参与者的预测准确性。这种方法利用同行报告之间的相互关系来交叉校验每个参与者的预测,并使我们能够为每个代理商指定一个“同行评估分数(PAS)”作为该代理商预测准确性的代理。我们确定了若干有效的实证方法,以生成考绩制度,并提议一个汇总框架,利用考绩制度确定专家,提高现有的聚合者的预测准确性。我们评估了14多个真实世界数据集的方法,并表明一)同行预测方法产生的考绩制度可以大致反映代理人的预测准确性,二)我们的汇总框架显示,在三种大众精确度措施下,对二分数和多选题的现有聚合器的预测准确性预测准确性都得到了一致和显著的改进:Brier评分(平均误差)、log-Cropy损失(CU)和Acrosty-CU。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
124+阅读 · 2020年9月8日
基于深度学习的表面缺陷检测方法综述
专知会员服务
86+阅读 · 2020年5月31日
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
37+阅读 · 2020年1月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
计算机类 | 低难度国际会议信息6条
Call4Papers
6+阅读 · 2019年4月28日
人工智能 | 国际会议信息6条
Call4Papers
5+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Arxiv
15+阅读 · 2021年2月19日
Arxiv
9+阅读 · 2020年10月29日
Inductive Relation Prediction by Subgraph Reasoning
Arxiv
11+阅读 · 2020年2月12日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
VIP会员
相关VIP内容
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
124+阅读 · 2020年9月8日
基于深度学习的表面缺陷检测方法综述
专知会员服务
86+阅读 · 2020年5月31日
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
37+阅读 · 2020年1月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关资讯
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
计算机类 | 低难度国际会议信息6条
Call4Papers
6+阅读 · 2019年4月28日
人工智能 | 国际会议信息6条
Call4Papers
5+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Top
微信扫码咨询专知VIP会员