在小红书搞 AI,是一种怎样的体验?
作为近年来国内发展最迅速的移动互联网平台之一,小红书平台吸引了无数用户在这里交换生活经验、分享生活态度。基于独特的社区生态和丰富的落地场景,这个超大型 UGC 平台在计算机视觉、自然语言、强化学习等技术领域不断诞生着兼具价值和挑战的新问题。
与此同时,小红书从技术层面加大投入、超前布局、汇聚人才,积累了深厚的技术优势,也形成了优秀的技术团队。在吸引众多全球顶尖科技公司技术牛人加入的同时,小红书也愈发注重青年技术人才力量的集聚与培养。
青年研究者该如何选择自己的研究领域?为什么众多技术人都选择来小红书搞 AI?小红书为这些青年人才提供了怎样的广阔天地?在一场技术沙龙活动中,这些问题都得到了解答。
10 月 15 日,小红书 REDtech 青年技术沙龙 - 上海站成功举办。
本场沙龙集结了多位高校顶尖学者、小红书技术团队大神,围绕多模态、大模型、视频处理等最新的 AI 前沿技术热点带来了相关报告
:
-
小红书技术 VP 凯奇:《大规模深度学习系统技术及其在小红书的应用》
-
复旦大学计算机学院教授邱锡鹏:《语言模型即服务与黑箱优化》
-
上海交通大学电子信息与电气工程学院电子系教授翟广涛:《媒体体验质量评价》
此外,本场沙龙还为即将投身业界的高校学子特别设置了嘉宾对谈、自由交流等环节。上海科技大学副教务长、信息科学与技术学院教授与执行院长、IEEE Fellow 虞晶怡、小红书技术 VP 凯奇两位「前辈」,为青年人才们提供了很多有益的学术研究指导与建议。
多模态技术是当前整个 AI 领域广受关注、发展迅速的技术方向之一,而小红书的社区和内容生态中包含大量的图文、视频、文字和用户行为信息,产生了海量高质量的多模态数据,因此成为了极佳的实践场景。
如何利用前沿的深度学习技术,在海量多模态数据中挖掘出用户感兴趣的内容和好的商业内容?从这个目标出发,衍生出很多有价值同时也具备挑战性的问题。
在分享中,小红书技术 VP 凯奇将这些问题及解决方案归结为四个方面:
打开小红书,首先映入眼帘的就是瀑布流或者内容流,这些都是系统为大家推荐的内容。据统计,小红书每天产生的用户行为达到几百亿级别的规模。对于这些数据,小红书技术团队使用基于 LarC 的机器学习框架对模型进行训练,根据用户行为中的规律,找出用户感兴趣的内容并推荐给用户。
上图是推荐模型的架构。这是一个多任务的机器学习模型,它能够预估用户的点击、停留时长、是否点赞收藏等行为。针对小红书平台产生的海量的系数参数,小红书通过超大规模无冲突的参数服务器,对这些参数进行更新和捕捉。
推荐系统的 Online Training 过程。
具体而言,当用户在浏览信息流的时候,推荐系统会实时捕捉用户的浏览、点击、点赞等行为,这些行为会基于 Flink 实时处理的计算引擎对这些数据进行拼接,从而产生高性能的样本,然后这些样本会被实时送到模型中去做预估。同时,这些短暂累积的样本也会用来做一次非常短暂的 Online Training 以更新模型参数。这些更新后的模型参数会立刻发布到线上,去服务下一次的请求。整个过程是保持在分钟级别的。
业界还有一个经典问题,比如大家浏览推荐内容时经常会发现:为什么密集地推送我以前看过的东西?我看的东西新鲜感不够了怎么办?
在推荐场景中,关注较短的时间周期会使得追打和信息茧房问题严重,小红书技术团队对用户的多元化长短期行为设计了不同的序列建模方式,在多个维度带来了显著提升。此外,关于内容推荐的多样性问题,小红书技术团队将传统的多样性做法从 DPP 改进到 SSD 算法,在信息流推荐的场景中高效地滑窗计算,从而将单篇模型的价值排序转化为整个浏览周期的建模。这背后依赖的是孪生神经网络学习长尾内容的相似性。小红书技术团队的相关工作成果已经发表在 KDD 2021 会议上。
由于小红书社区包含了的大量实际生活当中非常有用的信息,很多用户都会把小红书当作搜索引擎来用。这其中包含一些挑战,比如多种数据形态的搜索、长尾现象严重、意图理解问题等。
举例来说,比如某人在小红书上看到了一个看好的衣服和鞋,想搜一搜它的搭配有哪些,了解在不同场合下搭配这件衣服和这款鞋子是什么样的感觉,这属于生活知识的搜索,同时又是多模态的搜索。
面对这样的问题,小红书团队构建了下一代多模态的泛生活搜索引擎。它基于对多模态内容深入的理解,通过图文、文字真正搜索视觉的内容,也能够根据用户的特点去做更加个性化的搜索。
上图展示了小红书团队规划的多模态搜索技术架构,可以看到,其中非常关键的一个依赖是特征抽取和表达的模块,对于图片里面包含的内容,无论是衣服、鞋、商品,大规模的神经网络都能有很好的表征,然后从大量的多模态内容当中检索出相同的商品或者相似的商品。
与其他平台相比,小红书的商业内容有一个很大的不同点——原生化。所谓原生化,就是从点赞、评论等行为去看,用户对这个内容非常欣赏,可能完全感觉不到它是一个商业内容。但是对于平台上的商家来说,制作这样的商业内容的门槛很高。如何很好地平衡商家的商业意图与生产内容的用户价值,是一个很关键的问题。
为此,小红书技术团队使用了基于大规模神经网络的生成式技术,来帮助商家根据内容去生成更好的标题和内容。这背后其实是基于大规模的预训练模型,包括业界较为领先的 T5、BERT、GPT 等模型架构,这些模型架构都在小红书海量的多模态数据上进行了训练。一部分的预训练模型用来去做笔记内容理解,一部分预训练模型会被用来去指导生成式模型去生成标题,这些都是相关技术在商业领域的应用方式。
上述所有的机器学习内容,其实都是基于小红书技术团队自研的 LarC 机器学习平台。它启动于 2019 年,到了 2020 年和 2021 年,相关的机器学习框架和平台推广到了搜索、推荐、广告等所有领域。2022 年,LarC 实现了平台化。
目前,LarC 机器学习平台的能力已经相当完整,涵盖从底层基础设施到计算框架、资源调度、离线应用以及在线部署多个层面(其中标黄部分代表已经实现)。
借助 LarC 机器学习平台,小红书技术团队希望能够帮所有算法同学迅速、高效地处理海量数据,训练大规模机器学习和深度学习模型。
最近科研圈有哪些前沿的研究方向与主题呢?
复旦大学计算机学院邱锡鹏教授和上海交通大学电子信息与电气工程学院电子系翟广涛教授基于自己的研究领域,介绍了「语言模型」和「媒体体验」这两个方向的研究进展
。
邱锡鹏教授探讨了《语言模型即服务与黑箱优化》的主题。在大模型时代,上游模型预训练和下游任务微调成为 NLP 的主要发展模式。但随着模型越来越大,这种模式变得不可行了。将模型部署在服务端成为新的应用模式,邱教授团队提出语言模型即服务概念,但面临两个挑战:使用统一基础模型支持不同 NLP 任务;二是高效适配到下游任务。
对于统一基础模型,它的目标是用一个模型适配所有的 NLP 任务,比如同时支持理解和生成任务。邱教授团队提出一种非对称的预训练 Transformer 模型——CPT,同时展现出很强的理解和生成能力,在多个任务上超越主流模型。目前,支持多类型任务的有 Seq2Seq 模型,但对一些分为很多子任务的 NLP 任务如基于属性的情感分析任务(ABSA),无法同时做到一对多。团队将 ABSA 构建为序列生成任务,效果优于最近 SOTA 方法。
有了统一基础预训练模型,接下来要考虑如何将它迁移到不同下游任务中,高效微调算法变得至关重要。邱教授团队分别提出标签调节和黑箱优化方法。实验表明,标签调节在一些通用语言理解数据集上比 P-Tuning、Fix-Tuning 效果更好,而黑箱优化通过无梯度优化方法来优化大模型,并将它高效适配到下游任务。
可以看到,邱教授团队的这些研究成果会对小红书的一些应用场景产生助益,以 AI 生成更原生的商业内容为例,如果使用能够同时支持理解与生成任务的统一基础模型,加之在小红书海量多模态数据上进行训练,那么笔记内容理解和标题生成等任务可能会变得更加高效。
翟广涛教授专注于多媒体智能领域,他对《媒体体验质量评价》这一主题研究颇深。视觉感知是非常复杂的过程,我们看到的东西和视网膜上获得的视觉刺激往往不一样。有时本身是静止的图像,但看起来会产生旋转。这类例子还有很多,所以在做媒体体验质量评价时面临很多挑战。
媒体体验质量评价包括人类的主观评价和计算机实现的客观评价,后者是实现海量图像和视频大规模自动化处理的必要条件。质量评价又细分为全参考、半参考和无参考方法,应用最广的是只通过失帧视频来判断质量的无参考评价。媒体质量评价是视觉感知信号处理的一个分支。翟教授团队不仅针对视觉感知创建了结构化建模方法,而且提出了无参考视觉质量评价算法。
在讨论质量评价时,学界主要考虑多数人评分的均值,但用该均值代表质量是否合理有待商榷。考虑码率或分辨率成本时,也并不是投入的码率越高分辨率就越高。翟教授团队用大量实验证明图像或视频的主观分数分布,利用 Alpha-stable 模型模拟主观分数分布。音视频的相互作用也是做媒体要考虑的重要内容,一方面做视觉模型时考虑音频特征,另一方面创建音视频联合的质量评价模型。
作为一个非常大的 UGC 内容社区,小红书上图像或视频的来源可以说非常宽泛,有时真实拍摄环境不受控,导致内容质量不能保证。这时,处理质量评价问题就要考虑全参考和无参考两种场景,而翟教授团队在这方面的一些研究成果正好可以满足像小红书这类媒体产业质量监管的大规模应用需求。
在人工智能的发展浪潮中,涌现出一大批新的青年研究人才,他们也做出了许多优秀的工作。而在相关技术发展的过程中,学界和企业界共同起到了关键的推动作用。
对于高校来说,如何设置培养体系,才能让这些青年人才获得全面的发展,具备解决挑战的理论基础和实践能力?
对于企业来说,又该如何吸引顶尖 AI 技术人才的加入,并为人才提供广阔的发展空间,实现个人与企业的双赢?
本次沙龙的压轴环节,虞晶怡、凯奇两位前辈分别从学界和业界立场出发,开展了一场「高能」对谈。
凯奇表示,一个好的工作或者一项好的技术,一定跟它所处的业务场景相辅相成。业界与学界的不同点是,在找到一个问题以后,业界在具体过程中会更加关注数据和数据的闭环,数据决定了整个技术能够达到的天花板。
比如百度拥有一个巨量的搜索引擎入口,能够为其搜索技术提供一个高压力、高准确度的需求场景。再比如,阿里在双十一期间有海量的、突发的流量场景,就能够非常锻炼技术团队提升系统稳定性的能力。对于今天的小红书来说,这样极具价值的业务场景也是存在的。
当前,小红书已经成长为一个月活超 2 亿的 UGC 内容社区,又涵盖了视频、图片、文字、用户交互等类型的数据。在这样一个落地场景丰富的社区,如果能将多模态数据利用好,真正对用户和内容做出准确的理解和分发,让技术与小红书的业务场景互相结合、互相成就,其应用前景不言而喻。
虞晶怡教授则总结道,找到一个好的问题,再找到对的思路去解答它,才是关键所在。工业界的优势就在于有很多现成的问题需要求解。
「我时常跟我的学生说,找到好的问题要比找到好的答案重要得多——什么样的问题是值得做的?什么样的问题哪怕非常困难也是值得探索的?不管在学界工作还是在工业界工作,最终考验的是解决问题的方法和思路。不是说死记硬背就能解决一个问题,没有那么简单。」
这也正是二者的区别之一。工业界其实有很多实际落地的问题,这些问题的发现要比解决方法重要得多。近年来,随着小红书用户规模的高速发展与用户需求的不断提升,衍生出了大量新的技术应用课题,前沿技术在这一平台发展中的角色也越来越重要。与此同时,小红书在技术领域不断加大投入,加快布局前沿技术,以创新技术推动业务增长。
目前,小红书技术团队的很多应用都是基于大规模深度学习。而凯奇在对谈中提到,对于目前工业界的很多实践应用来说,深度学习领域依然有着很多热点话题和热点工作可以去做,包括最近大火的基于 Diffusion 方法的生成模型。
见证了社交网络的起起伏伏,虞晶怡教授谈到一点自己的感受:「我一直在思考,社交平台怎么样才能更Attractive,更有粘性?我个人觉得一个重要组成部分是情感(Emotion)。以AIGC为例,你可以生成一个很美的画面、视频,但如果里面缺少了情感的交流,缺少了人与人的沟通,是很难打动用户的。」当焦虑等负面情感占据主流社交媒体,一个能帮大众发现建立健康积极情感的社交平台会成为这个时代的英雄。
在当前的 AI 领域,对于人的情感这件事情的研究还在很早期,沈向洋博士此前提到,「情感」会是 AI 的下一个突破。虞晶怡教授指出,关于人的情感如何能在 AI 的方法里面得以体现,今后会涌现出很多课题研究。可以想象的是,富有「情感」的小红书社区能为这个方向的研究提供海量的数据和场景,或许能够提出很好的研究命题。
理论与实践,往往是相互促进的。虞晶怡教授表示,AI 技术人才的成功虽然很大程度上可以归功于学校的培养,但必须承认的是,包括像小红书这样的公司以及很多初创公司的成功,也给了很多年轻学生鼓励和激励,为人才的茁壮成长提供了充分的空间。
面向优秀的应届毕业生,除了提供场景、数据等丰厚资源之外,小红书技术团队已经制定了从融入职场到成长为行业技术人才全周期的的详细培养方案,护航每一位高校顶尖 AI 技术人才的成长。
在第一年,小红书技术团队聚焦「融入」,通过薯光计划、Mentor 机制等方式,帮助大家完成从学生到职场人的转型,同时帮助大家在实践中找到擅长的技术方向。
在第二年、第三年,小红书技术团队会通过业务实践、体系化课程、前沿分享及学术交流等方式,培养青年人才们成为独当一面的技术骨干。在这个过程中,优秀的同学也有机会成长为技术 leader。
「同学们可以为自己设立非常高的、挑战性的目标,这样你才能达到好的状态、拿到好的结果,而小红书这个平台也会持续为年轻的 AI 技术人才们提供实践的战场。」凯奇总结道。
特别的是,面向入职之后的优秀应届生,直属上级会始终关注新人的成长过程,提供指导与帮助,也会分享来自国内外大厂的技术经验给到同学们。此外,小红书技术团队还面向应届生提供了绩效保护和绿色晋升通道,以往已经有多位技术应届生获得了连续晋升。
「内容社区」的印象之外,小红书「技术立身」的另一面始终相对低调。事实上,小红书技术团队的很多成员都有谷歌、BAT 等国内外一线大厂背景。在多年来的落地实践中,小红书已经积累了深厚的技术优势,也形成了一支非常优秀的技术团队。
今天的小红书,正处于一个高速增长期。技术团队的价值进一步凸显,对前沿技术及其落地实践的探索需求比以往更加旺盛,也正在期待更多顶尖 AI 人才的加入。
小红书还将在 10 月 19 日与 10 月 26 日晚七点举行两场线上技术分享活动,邀请到了 One Flow 一流科技创始人袁进辉与小红书智能分发部负责人瑞格,就工业级机器学习框架的挑战与实践展开分享。后一期直播则邀请到了上海交通大学计算机科学与工程系(CSE)副教授张伟楠带来「推荐系统的技术演进」主题讨论,同时小红书搜广推技术的相关负责人也将就实际业务中的问题展开分享。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com