腾讯阿里都看中的AI团队 让机器问答准确率75% 金沙江联合资本领投A轮

2017 年 12 月 3 日 铅笔道 不说谎的创投媒体

 人工智能答究竟可以多智能


| 铅笔道 记者 冯超


导语


任教两年,洲在今年成了浙江大学的博士生导师


和所有老,他自己的学生傲。他喜和学生一起钻进实验室,研究充开拓空的人工智能。


但研究的方式不止于此。智能答在社交、商、游域被迫切需求,目前的技水平又不成熟,他于今年7立了一知智能。


的博士团队成了他最大的助力。提出记忆概念、研语义理解和分析系、将非构化数据转变构化数据……团队每一步都走得坚实有力


目前,团队已和腾讯、微、网易、阿里巴巴等多个域的8部企达成合作,在原有技术优势的加持下,完成了阅读理解、知识库构建等五套件工具包的研


现在让赵洲骄傲的不只是学生,还有团队,一起



注: 赵洲承诺文中数据无误,为内容真实性负责。铅笔道作客观真实记录,已备份速记录音。

给机器找记忆


一知团队的小伙伴们习惯实验室里的安静。


就像形容绝对的静针落地的声音都能听见,他们习惯的安静也非雅雀无声。嗒、嗒、……热时上的蝉、天冷在窗上的雨声,都被这啪嗒声无形稀


那是手指断断续续击键盘的声音,诉说着一知团队的专心致志。在浙江大学,不知多少学生在这里发声,来解人工智能。


次的解有些不同。为了在由斯坦福大学自然语言计算组发起的Stanford Question Answering Dataset战赛中取得好成,一知智能的潘博博士带领语义理解开发团队已在里埋苦干近3个月。


研究的核心内容是智能答。相比于99%准确率的人脸识别,同被广泛使用的回复机器客服还远达不到智能的程度。


问题无疑出在机器和人脑天差地别的语义理解能力上。文本分析不了、短的问题又必须见到关键词这样的系无法针对一个问题与用户进行多次交流,准确回答自然成了奢求。


况且,如今的答系已不再拘泥于传统的文本索形式。视频……不同媒介之相互融合、建立关系的大境下,系回答问题是理清其中的模式关系就十分困


机器能否想人学会逻辑推理呢?抱着一疑,一知智能的哲乾博士带领的模型研发团队提出了记忆的概念,并决定安装记忆神经。毕竟,只有记住全部内容,理解、推理和回答才会是反复的行为


成功了。

真正的语义理解


凭借着成功搭建的记忆,一知智能的潘博博士在今年5SQuAD机器阅读理解比中排名世界第二(大学参赛队伍第一),打了同期参的微、谷歌、FacebookIBM


团队难以忘记好成绩背后的汗水。特征增、数据训练……虽说站在Facebook和微等巨人的肩膀上,但要设计教材和行业经验都没有记录记忆模型,团队还是克服了不少难题


但更在意的是份成藏的潜力。赵洲介绍,团队的产品总监黄孝喜博士有着20目工程经验,是比他年的前,也是团队产品研领头羊;算法模型研发团队负责人陈哲乾博士和语义理解工程团队负责人潘博远博士也都有着5年的目工程经验,是人工智能域的老兵。和前三位来自浙江大学的博士不同,知识图谱工程团队负责人刘哲民博士本科毕业于山大学,但也有着5年的目工程经验正是些亦亦友的伙伴的加入,才成就了真正的一知智能。


公开比的技术优势加持下,团队最易展的当然是核心的语义理解与分析技毫无疑,将词汇内容叠加持续记忆记忆是理解问题和答案的前提条件。


具体的实现手段是把非构化数据构化数据。与市面上把答案和问题向量,再靠向量和向量的匹配行操作的答系不同,靠构建知识图谱检索答案的团队,向量位并不是词汇


先将文本逐词输进引擎,再模不断用神脉冲记忆程,把答案放到神的神元里存。这一形式可保证团队的第一版本机器提升20%记忆长度,并保回答的实时性,答案准确率75%(人工80%)。


因此,团队的机器甚至可以教学病。如用想知道如何治感冒,在的智能答系中必提出感冒了吃什么问题才能得到答案。但团队的机器却能根据知累,把用户诸流鼻涕发烧的非构化数据构化数据,无需用户说感冒二字,也能自行匹配。


但就如所有的人工智能系,要想真正理解分析,机器就必要大数据和深度学驱动一个是千万的文档,一个是最完的模型,两条腿缺一不可。


所以,模型方面已有的一知总监黄孝喜博士,开始琢磨大数据的来源。

和头部企业一起迭代引擎


他看中的是各个域的部企


要做语义理解引擎,但个开不是小数目。和最部的企合作,我一方面可以拿到大量的数据行研究,另一方面也会得到方的专业支持。


但事上,没等团队下手,些所就已找上来。网易是团队的第一个正式客,他想要游中的虚人物可以和真人行交互,而不是只能预设言。


这正是团队擅长的非结构化到结构化的处理。得到专业在数据整理批注上的帮助,刘哲民博士得更有底气,如果做成,用就会更加好,因为问答是自生成的


和网易行合作的同团队也没有放弃在其它域的探索。社交域的腾讯域的阿里、金融域的同花Office办公领域的微软、家电领域的格力,都先后成为了团队的标杆


随着团队语义理解引擎不断迭代,复杂长文本的阅读理解已不再是难题根据记忆生成表、通知、档案等文本对团队的机器而言已是小菜一碟。


文字域的智能答也水到渠成。专业名词频现的说明书也好、满布数字的长长金融报表也罢,团队的机器都能在存储这些信息的神经元中凭记忆检索出C端用所需要的具体答案。


B端用户则可以在团队视频智能答技中受益。团队的机器都会通过动态和静态的双通道、在词语和问题两个层次上聚焦神经网络,将在记录和理解员工行为的基础上回答老板的问题。员工几点到公司之类的问题,再也不用打卡说明了。


当然,完善中的模型并不成熟。50多个人的团队要满足这么多头部企业的需求看起来似乎吃力,但产品总监黄孝喜博士毫不担心,人工智能域的人才在精不在多,我认为一年的合同任半年就能完成


况且,团队真正的目是中小企语义理解分析功能的基上,团队已完成阅读理解、知识库构建、视频问答、语义检索和智能干部拔五套件工具包的研


他期待些大模的用革新。会和在的大客户进利共享,技依旧是主。在做好视频文字语义理解的引擎之后,云平台才是盈利的主要地。


据悉,团队已于今年11月完成A轮融资,由金沙江联合资本领投、博通资本跟投。目前,团队正在寻求A+轮融资,用来扩建团队,高科技产业最好拼的是人才


编辑   赵芳馨        


优质项目"融资首发绿色通道":创业者请加微信yangmao-71,务必注明项目名称;或发送BP至xueting@pencilnews.cn。


如需转载文章请联系铅笔道微信客服号铅笔道大芯芯(微信id:qianbidao2017)获取授权资质,否则我们将依法追究相关责任。


 阅读完莫急走
我是本文作者冯超,一只关注消费升级、文娱与教育行业的少女,相关行业创业者求报道,咱们微信聊聊:Fchaoer1994。(加好友请注明公司、职位、事由哦)


长按识别图中二维码,或点击“阅读原文”,即可报名金芯计划。

登录查看更多
2

相关内容

赵洲,浙江大学副教授、博士生导师。主要研究方向是多模态语义理解和人机交互学习。相关工作发表国际会议期刊论文60余篇,包括ACM汇刊与IEEE汇刊及CCF A类会议50余篇,Google Scholar引用次数4000多次。近年来主持与参与国家自然科学基金青年/面上项目、浙江省自然科学基金杰出青年项目、国家重点研发计划和国家自然科学基金重点项目等; 获得INTERSPEECH 2021(CCF-C)最佳论文提名奖。
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
35+阅读 · 2020年4月5日
【阿里技术论文】AliMe KBQA:阿里小蜜中的结构化知识问答
专知会员服务
82+阅读 · 2019年12月14日
AI会话能力超越人类!CoQA挑战赛微软创新纪录
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
阿里智能对话交互实践与创新
人工智能头条
5+阅读 · 2017年11月30日
Arxiv
4+阅读 · 2019年2月8日
Arxiv
3+阅读 · 2018年11月29日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
4+阅读 · 2018年5月14日
Arxiv
8+阅读 · 2018年1月12日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关VIP内容
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
35+阅读 · 2020年4月5日
【阿里技术论文】AliMe KBQA:阿里小蜜中的结构化知识问答
专知会员服务
82+阅读 · 2019年12月14日
相关论文
Arxiv
4+阅读 · 2019年2月8日
Arxiv
3+阅读 · 2018年11月29日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
4+阅读 · 2018年5月14日
Arxiv
8+阅读 · 2018年1月12日
Arxiv
4+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员