今天这篇博文将讨论一下推荐领域Benchmark的一些问题,也会介绍一下最新论文《BARS: Towards Open Benchmarking for Recommender Systems》中的一些观点。 首先讲讲什么是Benchmark,所谓Benchmark就是用来做比较的规范。在现在的AI领域中,包括NLP、CV等,一个典型的Benchmark通常包含数据集、指标和计算性能的方式。当然它的前提是领域内的人都愿意接受这个规范。因此,为了确保让大家接受,近期的许多基准,要么选择一组具有代表性的标准任务,例如GLUE 或 XTREME;要么会通过征集的意见来构建,例如SuperGLUE、GEM 或 BIG-Bench等。 那么这个规范有什么用呢?没有这个规范会怎么样呢?这个规范就是用来对比的,做出让大家信服的对比。如果没有这样一个规范,比如某论文在一些冷门数据集上做实验,甚至用一些冷门的评价指标,告诉大家XXX模型取得了多少多少的提升,这很难让大家信服。 而当前推荐领域的Benchmark是一直被诟病的一件事情,目前该领域的研究存在一些问题:

  1. 没有被一致认同的数据集和评价指标。推荐由于其强烈的工业属性,一般在工业界被划分为召回和排序,再细分可能还有粗排、精排、重排等等。其中在召回阶段,候选项(Candidate Items)是很多的,常常上亿,而现有的公开数据集往往达不到这一个要求。这也成为了一个学术界和工业界的鸿沟,就是数据规模问题。其次,在推荐领域的评价指标五花八门,现在往往是拿信息检索的指标来做评价的,而在工业界普遍认为,如果评价指标看的是AUC就是排序,评价指标是Recall和NDCG就是召回,但是学术界在撰写论文的时候并没有写的那么清楚。
  2. 不可复现性。这个就不说了,懂得都懂。
  3. 没有一套易上手的框架。现在在推荐领域比较知名的框架是RecBole,但它只能算是一个代码库,就是方便研究人员对比一些常见Baseline,离真正意义上的Benchmark还有一些距离。

《BARS: Towards Open Benchmarking for Recommender Systems》是华为、人大、清华和港中文联合发布的最新的推荐领域的Benchmark,他们开源了这一工具https://openbenchmark.github.io/BARS/,这篇论文我很推荐初学者去阅读,其中没有冷门的词汇,通读下来很顺畅,也能对推荐有一个大体的了解。 好了言归正传,我们今天主要来看看这篇论文中一些有趣的结论。

上图是召回领域一些工作的对比,论文发现了一些有趣的结论:

  1. GNN确实有一定的效果
  2. 每个类别都有表现在top-5以内的模型,说明召回任务还没有被任何类型的方法所主导,仍然有很大的发展空间,任何方法都有可能出现新的突破
  3. 基于item相关性的方法对效果能有很大的提升
  4. 简单的YouTubeDNN就能取得非常不错的效果,其他方法的提升其实都一般

上图对比的是AUC,就是排序的工作对比,依旧有一些令人大跌眼镜的结论:

  1. 没有一个模型可以统治所有的数据集,这与现有论文报道的结果相矛盾
  2. 以DeepFM,xDeepFM为首的一些模型很能打
  3. 排序阶段想提升效果很难

所以,看到这些结论,我们确实迫切地需要一个被大家所认可的Benchmark,BARS不一定能被认可,但是需要有科研人员来做这样的工作,来治一治动辄十几个点提升的方法和论文。

成为VIP会员查看完整内容
9

相关内容

专知会员服务
40+阅读 · 2021年4月3日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
30+阅读 · 2020年12月20日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
华为开源CTR Benchmark,学术界SOTAs的照妖镜?
夕小瑶的卖萌屋
0+阅读 · 2022年3月21日
最新基于GNN的推荐系统综述(附110篇论文下载链接)
机器学习与推荐算法
2+阅读 · 2022年2月19日
SIGIR2021@Elliot | 一个全新且全面的推荐系统Benchmark
机器学习与推荐算法
1+阅读 · 2022年2月8日
推荐系统领域13个开源工具总结
机器学习与推荐算法
1+阅读 · 2021年12月7日
推荐场景下的对比学习总结
机器学习与推荐算法
1+阅读 · 2021年11月23日
Recsys2021 | 推荐系统论文整理与导读
机器学习与推荐算法
1+阅读 · 2021年10月19日
Recsys2021 | 推荐系统论文整理和导读
图与推荐
0+阅读 · 2021年10月7日
华为、人大、清华和港中文联合发布推荐系统的Benchmarking
机器学习与推荐算法
0+阅读 · 2021年9月22日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年6月9日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Hierarchical Graph Capsule Network
Arxiv
20+阅读 · 2020年12月16日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
10+阅读 · 2018年2月17日
VIP会员
相关资讯
华为开源CTR Benchmark,学术界SOTAs的照妖镜?
夕小瑶的卖萌屋
0+阅读 · 2022年3月21日
最新基于GNN的推荐系统综述(附110篇论文下载链接)
机器学习与推荐算法
2+阅读 · 2022年2月19日
SIGIR2021@Elliot | 一个全新且全面的推荐系统Benchmark
机器学习与推荐算法
1+阅读 · 2022年2月8日
推荐系统领域13个开源工具总结
机器学习与推荐算法
1+阅读 · 2021年12月7日
推荐场景下的对比学习总结
机器学习与推荐算法
1+阅读 · 2021年11月23日
Recsys2021 | 推荐系统论文整理与导读
机器学习与推荐算法
1+阅读 · 2021年10月19日
Recsys2021 | 推荐系统论文整理和导读
图与推荐
0+阅读 · 2021年10月7日
华为、人大、清华和港中文联合发布推荐系统的Benchmarking
机器学习与推荐算法
0+阅读 · 2021年9月22日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年6月9日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员