今天这篇博文将讨论一下推荐领域Benchmark的一些问题,也会介绍一下最新论文《BARS: Towards Open Benchmarking for Recommender Systems》中的一些观点。 首先讲讲什么是Benchmark,所谓Benchmark就是用来做比较的规范。在现在的AI领域中,包括NLP、CV等,一个典型的Benchmark通常包含数据集、指标和计算性能的方式。当然它的前提是领域内的人都愿意接受这个规范。因此,为了确保让大家接受,近期的许多基准,要么选择一组具有代表性的标准任务,例如GLUE 或 XTREME;要么会通过征集的意见来构建,例如SuperGLUE、GEM 或 BIG-Bench等。 那么这个规范有什么用呢?没有这个规范会怎么样呢?这个规范就是用来对比的,做出让大家信服的对比。如果没有这样一个规范,比如某论文在一些冷门数据集上做实验,甚至用一些冷门的评价指标,告诉大家XXX模型取得了多少多少的提升,这很难让大家信服。 而当前推荐领域的Benchmark是一直被诟病的一件事情,目前该领域的研究存在一些问题:
《BARS: Towards Open Benchmarking for Recommender Systems》是华为、人大、清华和港中文联合发布的最新的推荐领域的Benchmark,他们开源了这一工具https://openbenchmark.github.io/BARS/,这篇论文我很推荐初学者去阅读,其中没有冷门的词汇,通读下来很顺畅,也能对推荐有一个大体的了解。 好了言归正传,我们今天主要来看看这篇论文中一些有趣的结论。
上图是召回领域一些工作的对比,论文发现了一些有趣的结论:
上图对比的是AUC,就是排序的工作对比,依旧有一些令人大跌眼镜的结论:
所以,看到这些结论,我们确实迫切地需要一个被大家所认可的Benchmark,BARS不一定能被认可,但是需要有科研人员来做这样的工作,来治一治动辄十几个点提升的方法和论文。