文 | 谢凌曦@知乎
作者注:所有内容均只代表作者本人观点,均有可能被推翻,二次转载务必连同声明一起转载。谢谢!
最近data2vec在twitter和知乎上小火了一把,有人说data2vec是个不错的工作,也有人说data2vec最成功的就是名字。
我的一句话评价:在当前的技术储备下,我不太看好这种多模态融合的路线会走太远。
先说文章。主体方法一句话就可以说清楚:利用masked data modeling的方式对语音、文本、图像进行统一预训练。
至于用EMA来构造teacher然后监督student等常规操作,与许多已有方法相似,因此也不再赘述。和之前若干文章一样,作者也毫不避讳,甚至有些骄傲地宣传该方法非常简单,并且可以处理三种不同模态。
实验部分因为要兼顾三种模态,所以每个部分都比较短,其中视觉部分略显敷衍:只做了ImageNet上的fine-tuning——然而在我看来,fine-tuning这个setting真的没有太大价值:预训练模型的两个最重要的能力(小样本、域迁移)都没有得到考验!
总的来讲,与近期视觉领域的若干文章一样,data2vec使用了极简架构,达到了比较solid的实验结果,因而是一篇值得被ICML接受的文章。
顺便说句题外话感慨一下:最近做预训练的文章,都流行“方法1页,实验4-5页”的暴力写作风格,似乎要向业界传递一个信号:方法不重要,数据和算力才是。
回想十年前,方法和实验长度1:1的文章,都时常要被质疑方法太简单。时代确实不一样了。
问题是,现在这样真的对吗?或者说,这样真的能解决长远的问题吗?我们知道,不同模态的数据具有十分不同的性质。除了语音和文本这种对应性很强的跨模态,如果我们考虑文本和图像,就会发现两者的对应关系复杂而多变。
本中的某些token,根本不会在图像中呈现出来,反之亦然。在这种情况下,统一使用masked modeling的做法,虽然确实取得了一定的效果,但是它的上限不会太高;指望它完成真正的跨模态,就更是天方夜谭了。
上述现象,归根结底,这是因为图像和文本的来源不同:图像作为反映客观事物的载体,必须追求真实和详细;而文本作为人类主观意志的表达,则往往追求抽象和简洁。
目前,还没有任何一种方法能够证实两种数据应该被映射到同一个隐空间上;而几乎所有跨模态预训练方法,都不过将两种完全不同的数据强行对齐,得到一些统计意义上的弱规律罢了。
当然,我不是说这些事没有意义。在深度学习,尤其是具有大一统潜力的transformer模块的助力下,这样做确实拓展了人类的知识边界和工具包,值得记为AI发展的一个小里程碑。
但是,我们决不能满足于这种简单暴力的方法,因为它们对本质问题(即不同模态数据如何对齐)的帮助极为有限。
就拿我熟悉的视觉任务来说。BEIT和MAE开启了一波masked image modeling的热潮,然而问题是:在图像上做mask真的对吗,真的能够学到高效的语义吗?这个问题目前还没有得到解答!
换句话说,还没有人能够回答,图像自监督究竟学到了什么,是否学到了超越像素统计量的信息?在这种情况下,如果我们一味地沉浸在transformer的表面繁荣里,沾沾自喜于fine-tuning比linear probing高出的那几个百分点,怕是会忘了前路漫漫,懈怠于思考真正重要的问题吧。
总之,大一统很重要也很迷人,但是还不到火候啊。
最后,我希望以下两件事至少发生一件。
第一,我被狠狠地打脸:这样暴力的预训练方法确实带来了非平凡的突破,走向下一个时代的AI。
第二,大佬/大组们能够稍微冷静一些,向业界传递正确的信号,让没有足够资源烧实验的同学们知道哪些问题重要、哪些问题亟待解决、哪些问题不过是无奈下的选择:只有更理智的大众,才能更好地推动业界发展,不是么?
后台回复关键词【入群】
加入卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各大顶会论文集!