8月27日,这个聚集了清华唐杰教授、人大文继荣教授(人大高瓴人工智能学院院长,SIGIR2020主席)等一众在信息检索与挖掘领域有丰富经验的研究人员的团队宣布,他们将致力于打造基于自然交互的个人智能信息助理,取代传统的搜索引擎,成为下一代信息获取工具。
这件事,能做成吗?
撰文 | 太浪
1
新时代的搜索需求
2
基于自然交互的个人智能信息助理
北京智源人工智能研究院是 2018 年 11 月,在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立,依托北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建的新型研发机构。
「现在,是时候集中我们北京的力量,去探索下一代信息获取工具了。」文继荣教授表示。作为「智能信息检索与挖掘」重大研究方向的首席科学家,他将领导「智能信息检索与挖掘」团队,面向新时代,致力于做出「基于自然交互的个人智能信息助手」,取代传统的搜索引擎,成为下一代信息获取工具。
文继荣教授
文继荣教授在27日的发布会上指出,目前,搜索引擎仍是人们主动获取信息的主要手段,也是迄今为止最为成功的大规模人工智能应用之一。但搜索技术的架构和交互界面已经 30 年未变,搜索的核心技术也已经 10 年没有重大进步。
他认为,新时代的搜索引擎应该升级为智能信息助手,甚至进一步演变为个人智能信息助手,使得用户能够随时、随地,方便地获取与自己相关的高质量信息和知识。
根据文继荣的描述,你可以自然地与他们开发的智能信息助手进行对话,与它多轮交互,或者等它来主动交互;当你对它提问时,它会给出精确的答案,而不是给出一堆文本让你自己看,它有知识,能回答准确;它具有数据整合的功能,会用各种各样的信息(包括公开数据、个人数据和第三方数据)来满足你的信息需求;它还会专属于你,根据你的用户画像,它会知道你想要什么,并且能感知你所处的场景,给你提供个性化服务。
为了实现这样一个目标,智源研究院「智能信息检索与挖掘」团队将从理论基础、算法模型、系统三个层面展开研究。
理论方面,唐杰、徐君、沈华伟将探索整个智能信息检索与挖掘领域的「数学理论基础」和「认知理论技术」;
算法模型方面,刘奕群、贾珈将围绕「基于自然语言的交互式信息获取」进行研究,王建勇、刘康、邹磊将着重突破「知识增强的信息表示与挖掘」,崔斌、郭嘉丰、徐君将主要研究「深度语义检索与推荐模型」问题。
「实际上,算法模型这三个部分对应着传统信息检索三个最重要的问题:一是对用户需求的理解,二是对文本/数据的理解,三是将用户需求和文本/数据做连接,做检索和推荐。」文继荣表示,「但是它在广度和深度上,相比于我们传统的信息检索,往前走了一大步。」
做出新一代个人智能信息助手,便是他们要在系统方面做的努力。
文继荣表示,他们希望「围绕构建个人智能信息助手的关键科学和技术问题,联合北京地区高校和科研机构的优秀学者,进行联合攻关,显著推进智能信息检索与挖掘的研究,逐渐形成该领域的『北京学派』。」
3
花式交流促协同
不过,虽然大家有着共同目标,但各位学者来自不同单位、有着各自日常工作,如何在接下来的项目执行过程中更好地合作,是需要费心思考的。
「现在国内很多大项目基本上是把钱一分,大家就分头做自己的了,到最后是不是能够有一些好的成果出来,是很难的。这个是普遍性的问题。」文继荣说,「但是我不希望我们在智源做事情也是那样。我还是希望有一个更好的机制,使大家将来能够像今天这样,有更多的交流,在很多方面互相合作。」
于是,在 8 月 27 日「智能信息检索与挖掘」重大研究方向发布会的圆桌讨论环节,文继荣教授、崔斌教授、唐杰教授、徐君教授、郭嘉丰教授、刘奕群教授、窦志成教授、沈华伟教授以及字节跳动人工智能实验室负责人马维英博士共同就这一话题进行了探讨。
窦志成表示,从一开始,就应当确立共同的目标与责任分工:大概有一个要执行的输出物,需要哪些数据,围绕这些数据要做哪些地方;然后,每个人的研究尽量往这个方面移一下。
多位学者均表示,定期的、各种形式的、跨学科的沟通交流十分必要。
刘奕群讲述了自己非常欣赏的一种模式:澳大利亚墨尔本有一批学者,他们会定期在墨尔本边上一个非常漂亮的小城市举办信息检索相关的学术论坛、学生会议。据他了解,墨尔本差不多聚集了至少五六个来自不同学校的、做这个档次的高水平的检索的学者,他们会跨大学去指导一些学生。学生可以得到不只一位导师的指导。
他认为,应该形成一个以智源研究院为中心,不同导师、学生联系紧密、沟通频繁的研究团体。只有通过不同观点的不断碰撞,才能激发更多的活力与创意。
也有学者指出,应该有跨领域的交流。
徐君曾在微软亚洲研究院当过实习生,他说,自己学生时代最大的受益就是可以听各种各样不同的报告,然后与其他人进行讨论。前段时间被拉去帮助解决新药研发问题的经历,更是让他认识到跨学科交流的重要性。
「刚开始去的时候,我完全不懂,但是一两个小时的交流后,我逐渐明白他们面临的问题是什么。一个是怎么做匹配,另一个是化合物的数量可能达几十亿种,他们可能要算二十年才能算出一个药来。那么,这个时候,我们人工智能的一些方法在这个领域能够发挥作用。」
《Nature》一篇探讨 AI 可能对药物研发产生的变革的文章中指出,深度学习能够通过穷尽各大患者及健康人群数据库,找到药物候选靶点,运用算法精准预测,快速筛选活性化合物,虚拟构建药物分子,大大缩短药物研发的周期。
徐君觉得,那些搞制药的人想出来的方法,「也许也能够反哺我们」。
这批智源学者中,有多位是从微软亚洲研究院走出来的,他们对数据、应用、需求的重要性都有深刻认识。因此,当字节跳动人工智能实验室负责人马维英博士提到可以给数据、给算力时,被「cue」,届时一定要兑现承诺。
「我觉得今天这边的研究能利用更好的大数据。我们的数据资源很丰沛,从新闻、图片、视频、直播到新一代问答,我们也在做音乐的创作。所有的内容,大数据非常多,可以让你做内容的理解、创造、分发,连接人和信息,再到垂直应用到广告、电商、财经、教育、学习、理财等领域。如果需要,我们还能够提供算力。」
马维英表示,作为企业,他们最想要的是「人才」,「我们也在做搜索,我们的推荐引擎也是使用排序算法而不是传统的推荐,跟搜索引擎一样复杂。我们也非常重视对话引擎,今天,除了看头条,我们也想听头条、问头条、跟头条对话,但这得一步一步,这些都有机会一起合作。」
他希望,能够打通智源与字节跳动等企业之间的沟通与交往渠道,实现数据、算力、人才的优势互补。
崔斌则认为,最终要做出一个系统(智能信息助手)是一件有难度的事,「按照现在项目的形式,基本上很难各家一起来做。」
这个问题是需要首席科学家文继荣进行协调的。
机器之心Pro
追踪动态 | 技术调研 | 产业研究 | 深度阅读
机器之心Pro 是基于「机器之心团队构建的百万级规模人工智能知识图谱及结构化数据库」搭建的人工智能领域专业信息平台。
目前已上线四个模块:dashboard、新闻数据库、行业数据库和深度精选,覆盖 38 个技术领域及 55 个智能应用领域。
点击图片,查看官方使用手册
pro.jiqizhixin.com
盯动态、找标的、做调研