11 月 7 日,微信群里突然炸了,大家似乎都在讨论一个叫做 Magi 的搜索引擎,据说搜索结果和现在的搜索引擎很不一样,能够输出以结构化知识呈现的结果。Magi 仿佛“一夜爆红”,访问量剧增,导致自 2012 年就不再更新微博,其他社交媒体也久未有动态的创始人季逸超更新了一条微博:
在置顶微博中,自称自闭很久的创始人还告诉大家,Magi 其实并不是单纯的网页搜索引擎,而是自主阅读文本并持续纠错的 AI。
这个 AI 真的有这么神奇吗?带着疑问,AI科技大本营(ID:rgznai100)上手实测了一把,结果一下子震惊了。
从上图中可以看到,单单是页面简洁的风格就让人很舒爽,重要的是搜索结果不仅有较为精准的描述,属性中的每一个结果还有对应的链接,并带有标签和主要学习来源部分,最关键的一点是,搜索结果以结构化知识的形式呈现。
相比之下,一些目前流行的搜索引擎效果相形见绌。
这不禁让人好奇,Magi 究竟是怎样一种搜索引擎呢?为什么搜索效果不同于一般搜索引擎?背后使用了哪些 AI 相 关技术?
接下来,通过 Magi 的官网介绍和季逸超的技术解读,我们可以从中大致了解到这个产品的一部分细节。
据官网介绍,Magi 是由 Peak Labs 从无到有自研的基于机器学习的信息抽取和检索系统,它能将任何领域的自然语言文本中的知识提取成结构化的数据,通过终身学习持续聚合和纠错,进而为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。11 月,Peak Labs 发布了公众版 Magi.com。
与搜索引擎不同,Magi 不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识和数据。此外,Magi 从零研发了一套互联网搜索引擎,所以 Magi.com 同时提供全网规模的普通搜索结果,学习过程是在无人干预的情况下 7 x 24 小时不间断运行。
互联网数据浩如烟海,质量参差不齐,如何将这些数据处理成机器能够理解的数据结构时隔巨大的挑战。Magi.com 提供了与互联网数据交互的新方式,而 Magi 系统背后的技术平台则承载着另一半重要的意义:让机器像人一样能理解并充分利用互联网中无穷无尽的知识。
那么,Magi 到底用到了哪些 AI 技术呢?
从零设计研发了整个技术堆栈,包括原创 succinct 索引结构的分布式搜索引擎
使用专门设计的 Attention 网络的神经提取系统
不依赖 Headless 浏览器的流式抓取系统
支持混合处理 170 余种语言的自然语言处理管线
独一无二的训练/预训练数据。
这个系统通过引入传统搜索中的 query-independent 质量因素,使得优质可靠的消息源会更被重视
其基于多级迁移学习的提取模型则完全摒弃了人工规则、角色标注、依存分析等限制泛化能力的环节,并且可在 zero-resource 的前提下直接应用到各种外语文本上并取得令人满意的效果
而随着数据的积累以及来源多样性的扩充,这个系统还能够持续学习与调整,自动消除学习到的噪音和错误结果。
而季逸超本人也在 Magi 推出后在知乎上进行了更加详细而全面的技术解读(来源:知乎用户季逸超,链接:https://www.zhihu.com/question/354059866/answer/881655371):
How it works (灵魂手绘凑合看吧...)
几年来 Magi 的产品形态改变了很多(请分开看待 Magi 系统和 Magi.com 这个搜索引擎),技术上的进步主要体现在以下几点:
一、利用率和通用性
能够 exhaustively 提取重叠交错的知识,且不利用 HTML 特征。
不预设 predicate / verb,实现真正意义上的 “Open” Information Extraction。具体来说,Magi 不再依赖于预设的规则和领域,“不带着问题” 地去学习和理解互联网上的文本信息,同时尽可能找出全部信息 (exhaustive) 而非挑选唯一最佳 (most promising)。Magi 通过一系列预训练任务淡化了具体实体或领域相关的概念,转而学习 “人们可能会关注内容中的哪些信息?”。为 Magi 设计了专门的特征表达、网络模型、训练任务、系统平台,并投入大量精力逐渐构建了 proprietary 的专用训练/预训练数据
二、覆盖率和实效性
配合自家 web 搜索引擎以评估来源质量,信息源和领域不设白名单,综合Clarity(清晰度)、Credibility(可信度)、Catholicity(普适性)三个 Magi 权衡知识工程的规模化和准确性难题的量化标准来进行来源质量评估。
大幅提升实时性,热点新闻发布后几分钟内,就可以搜到结构化知识了。
三、可塑性和国际化
没有前置 NER 和 dependency parsing 等环节,减少母文本信息的损失。为 Magi 的提取模型设计了专用的 Attention 网络结构以及数个配套的预训练任务。具体来说,网络结构主要解决了复杂依赖关系和搜索空间爆炸的问题,让长文本下高效的 exhaustive 的知识提取成为可能。预训练任务则是对上述 “环节” 问题的新尝试,主要目标是淡化实体、predicate、领域的约束,充分利用多种不同的训练数据,并且降低线上持续学习修正过程中模型更新的开销。
技术栈完全 language-independent,可以实现低资源和跨语言 transfer。由于技术栈本身已经完全 language-independent,在设计预训练任务时,会专门 “引导” 并期望模型能在较浅层对语言有足够的抽象能力。
到这里,技术部分基本上已经讲完了,如果你对 Magi 的技术感兴趣,可以访问官网( https://www.peak-labs.com/docs/zh/Magi/intro)和季逸超的知乎,了解更多技术细节。
现在我们来了解一下 Magi 背后的团队——Peak Labs,以及创始人 PeakJi 。
先说这位具有传奇色彩的创始人PeakJi。PeakJi 真名季逸超,90 后男生,小时候在美国生活,在北大附中读高中期间接触 iOS并加入威锋网 WEIP 技术组,先后参与了 wefit 输入法的完善和各种越狱研究,高三设计并开发猛犸 1 网页浏览器,大一推出猛犸 4。
虽然现在 App 应用市场已经看不到猛犸网页浏览器的身影,但在当时这个浏览器被国际知名评测网站 App Advice评价,“猛犸4”重新定义了浏览器的标准,还有测试网站建议在 iPhone 上预装这款浏览器,可见其影响力。这让他在 IT 界一炮而红,并斩获了 Macworld 2011 特等奖。
据说,PeakJi 所有的产品都是由他独自完成设计、美工、算法、编码、测试和推广,是个十足的天才少年。
在现实生活中,季逸超似乎是个具有奇怪幽默感的人。在知乎上“季逸超是一个什么样的人?他有什么轶事?”的问题中,他脑补出一出本人被人肉并“悲剧”的大戏,并以第三者的视角告诉大家,他只是一个热爱电脑,与代码世界有着不解之缘的技术宅,还自嘲是登上《福布斯》榜最穷的人🙃。
2012 年,在北大念书的季逸超创建 Peak Labs,并发明了 Rasgueado 输入法。Peak Labs 由红杉资本和真格基金共同出资组建,聚焦于信息提取和检索技术的研究和开发,把自然语言中的知识转化为不可估量的价值。目前来看,Peak Labs 的产品和技术包括神经信息提取系统 Ireul,网页大规模搜索引擎 Ramiel,多语言分析 pipeline Arael 和分布式检索系统 Matarael 等,Magi 服务包括普惠版和企业版两种。
最后,不得提一下,Magi 也有很多不足之处,这一点 Magi 官网和季逸超都坦承,Magi 确实还存在一些问题,比如消歧义、工程性,以及规模化和准确度等。
事实上也是这样,在搜索一些简单的问题时,有时你会发现 Magi 给不出让人满意的答案,甚至有点令人喷饭,而且速度更慢一些:
关于搜索慢的问题,季逸超也在微博中说明了,这是由于单次搜索的计算量比一般的网页搜索要重很多。
另外,它不是一款搜索引擎,像搜索网址这类任务也达不到很好的效果,也无法进行图片搜索。
Peak Labs 的官网指出,Magi 已经展示出的开放领域信息提取能力,可以应用到企业客户所在的细分领域内,变成一个更加强大的信息抽取系统,让每一个领域、每一家企业都可以轻松地打造属于自己的知识图谱,他们希望未来的 Magi 系统能够成为“知识领域的 ImageNet”。
正如官网所说,Magi 现在还远算不上成熟,但其特性决定了它无穷的可能性和成长空间。也许在不远的未来,伴随着整个行业的进步,Magi 所构建的包容万事万物的结构化网络将成为通向可解释人工智能的基石。
未来,也许 Magi 会成为打破现有搜索引擎原理的新范式,开启全新的结构化知识搜索引擎时代,改变我们对信息检索和知识获取方式的刻板印象,谁说得准呢?所以,多一点耐心,相信 Magi 或类似的研究会带给我们更多的惊喜。
热 文 推 荐
☞天猫回应“双11数据造假”:已启动司法流程;小米折叠手机专利曝光;ASP.NET感染勒索软件|极客头条
☞重大利好!人民日报海外版整版报道:区块链“链”向未来,既要积极又要稳妥
点击阅读原文参与开发者大调查,好礼送不停!