** ****新智元报道 **
编辑:编辑部**【新智元导读】万众瞩目的WWDC24上,苹果果然用AI把iPhone全部重塑。重磅登场的Apple Intelligence,让苹果全系产品有了史诗级升级。Siri被全面重塑,自由穿梭于系统中。AI大牛Karpathy对此狂赞,然而马斯克却彻底怒了,下令全员禁用苹果!**
苹果说到做到,一夜间,iPhone果然被AI重塑! 长达一个半小时的WWDC大会,主题就是AI、AI、AI—— 从iPhone、iPad到Mac,无不被生成式AI覆盖。横空出世的Apple Intelligence,让苹果全系产品有了史诗级升级。 现在的整个苹果全家桶,都会用上GPT-4o,Siri还能随时召唤ChatGPT。硅谷各家大科技公司的大模型发展得如火如荼,苹果能做什么?库克的这句话揭示了答案——「LLM等AI突破,让我们有机会把苹果产品的体验推向新的高度」。你们做模型,我们做产品,的确是苹果一贯擅长的赛道。
而且,对于大家普遍担忧的安全问题,苹果也有解:通过苹果强大的自研芯片,普通大模型在设备端运行,太大的大模型就放到云端。而苹果专门打造的私密云计算技术,也保障了我们的隐私和安全,我们的数据就连苹果都无法访问。被Apple Intelligence加持的Siri,也彻底改头换面,全面逼近苹果让它「自由穿梭于系统中,随时听我们调遣」的愿景。
此外,除了Vision OS的重大更新之外,库克的这个消息也让中国用户激动不已:Vision Pro将于6月28日登录中国市场,本周五开始接受预定,价格29999元起!
网友:苹果AI满足了我的所有想象
有中国网友评论说:太牛了,Apple Intelligence真的满足了自己对AI在设备上的所有想象,不愧是苹果。
以前是Artifical Intelligence,如今就是Apple Intelligence了。 对于iPadOS 18的数学笔记功能,很多人都表示这太狂野了!
关于计算器应用终于登录iPad这一史无前例的事件,网友们表示万分激动。
OpenAI创始成员,AI大牛Karpathy对于苹果的这次更新也称赞不已:「我们正在进入一个打开手机就可以说话的世界。它可以和你对话,而且它认识你。这实在太令人兴奋了!」
Karpathy总结了这次苹果发布会的几大主题:多模态输入/输出、智能体、无摩擦、主动、分级售授权、模块化、隐私还有人给这次苹果的所有更新做出了一张bingo游戏图。
Apple Intelligence:不仅个人化,而且懂你
苹果的目标,就是为全球10亿用户构建强大的个人化产品。而近期生成式AI和LLM的发展,直接给苹果产品使用体验的全新升级带来了可能。苹果对于产品的核心原则是: 足够强大,在最要紧的事上都能帮到用户;直观易用;深度整合到产品的使用体验中;它必须足够「懂你」,以你的个人情境为基础;而且,还要注重保护隐私。如果这些原则都能满足,那它绝不仅仅是AI了,而是一种「个人化智能」。而符合全部这些条件的Apple Intelligence,就在昨晚闪亮登场了
为了这一刻,苹果已经准备了许久这个全新的个人化智能系统,能让我们手中的个人化产品更实用、更称心。市场上已有的AI聊天工具虽然好,但有一个通病:很少充分了解用户,因而也不理解我们的需求。而苹果,要改变这一切。Apple Intelligence,会让即将到来的iOS 18、iPadOS 18和macOS Sequoia,彻底脱胎换骨!Apple Intelligence,将强大的生成式模型置于iPhone、iPad和Mac的核心,能够根据我们所处的个人情境,来提供协助,而且深度整合在了所有的APP中。
Apple Intelligence,可以让我们的iPhone、iPad和Mac理解、生成语言和图像,还能代替我们跨多个app交互,简化操作过程。它最亮眼的地方,就在于理解我们的「个人情境」。自然语言Apple Intelligence中内置的LLM,能深刻理解自然语言。比如,iPhone可以为通知设定优先次序,从而为我们减少不必要的干扰,同时又能不错过重要的信息。 它还会驱动一个全系统适用的全新书写工具,让我们写起东西来更从容。它能帮我们重写、校对,还能提取文字摘要。在它的帮助下,我们无论是写文章、发帖,还是提炼想法分享给他人,过程都会无比丝滑(甚至还能帮我们检查要发在网上的评论)。同时,它还自动支持邮件、备忘录、Safari浏览器、Pages、Keynote,甚至第三方APP。 图像Apple Intelligence还包含多种图像功能,从照片、表情符号到动图。甚至,它还能让我们完全自创图像,让我们的日常对话更有趣。更有趣的是,因为它认得我们照片图库中的人物,我们可以把他们的图像个性化,用到对话中。比如,给朋友送上生日祝福时,我们可以生成ta的图像,用蛋糕、气球和花朵点缀起来。 生成的图像,有素描、插图、动画三种风格可选。 更让人惊喜的是,这些功能在系统中所有app都可用,包括Notes,Freeform,Keynote,Pages等等。 跨app操作Apple Intelligence的另一个特点,就是还能跨app操作,这无疑会带来深远的影响。它所需工具的各种资源,就在我们自己的口袋中——这些常用的app里。苹果设计的Apple Intelligence,能随时取用这些工具,代我们执行各种操作。 我们可以直接向它开口:「调出上周Joz发给我的文件」,或者「给我看看所有妈妈、Olivia和我的照片」「播放前几天我太太发给我的播客」等等。Apple Intelligence,会实现数百种此类操作。 个人情境顾名思义,个人化智能最关键的要素之一,就是要深刻理解我们的个人情境。而Apple Intelligence的运作,正是基于我们的个人信息都和情境之上的。它能从我们的各种app中,检索和分析相关程度最高的数据,还能参考我们屏幕上的内容,比如我们正在查看的邮件,或者日历日程。 在日常生活中,这个功能可太有用了!比如,我有一场会议改到了傍晚,我想知道开完这场会后,是否还能赶上女儿的演出,直接问Apple Intelligence就可以了。因为它知道我女儿是谁,她几天前发来的演出详情,我这场会议的时间地点,甚至还能预估我从公司到剧院的交通情况。
这个个人化智能系统的基石,就是设备端处理。要实现这项功能,就离不开苹果软硬件整合,以及强大的芯片。提供支持的芯片,包括A17 Pro,以及M系列芯片,它们为Apple Intelligence提供了坚实的算力基础。 它内置了设备端的语义索引,可以整理和提炼各种app中的信息。我们提出请求,Apple Intelligence就会同通过语义索引,识别相关个人数据,然后传给模型,让它们根据个人情境更好地协助你。 这个过程中用到的大多数模型,都能在设备端运行。然而有的模型,会大到无法放进随身携带的设备,怎么办?答案就是——服务器。不过这里依然有一个问题,在传统的做法中,服务器会储存我们的数据,在我们不知情的情况下使用这些数据。我们却无法对之验证,因为服务器软件只有所有者才能访问。而苹果的做法,彻底断绝了这种可能!我们能全权掌控自己的数据,包括在哪里储存、谁能访问。当iPhone上的隐私和安全保护功能扩展到云端,我们就能解锁更多智能功能了。为此,苹果打造了私密云计算技术。 它不仅能扩展自身的计算能力,还能引入更大的基于服务器的模型,来处理更复杂的请求。 而我们的隐私也会得到保护,因为我们的数据绝不会被存储,连苹果都无法访问。
Apple Intelligence强大的语言理解功能将落地为写作助手(Writing Tool)。作为操作系统的内置AI,写作助手不仅可以用在手机自带的短信或邮件中,也同样支持所有需要输入的第三方应用。邮件中有了自带的校对功能,可以一键查看修改建议,并能直接看到所有词语的释义。写邮件时,再也不需要一遍遍复制粘贴到其他应用的界面了,苹果一夜之间就抢了Grammarly的看家生意。 不仅是文本校对,Writing Tool也同样提供多样化的改写功能。它可以同时在文中生成多个改写版本供你选择,也能随时回滚到原始版。 此外,用户还能和Writing Tool进行个性化交互,定制自己的改写需求,比如改变文体、文风、语气等等。想要发一封有文采的邀请函?Writing Tool可以瞬间帮你把现有的平常文字改写成一首诗。 或者一键在友好、专业、简洁等三种文风间切换,丝滑适应不同身份的收件人。 谷歌都有了网页内容的摘要,苹果又怎么能落下。这不邮件的摘要功能就出来了,拯救所有不想读长邮件的打工人。 邮件太多懒得回?Writing Tool也帮你想好了对策。Smart Reply功能可以自动理解邮件的上下文内容,并自动为你生成一堆选择题。只需要点击几下选出自己的答案,就能生成一份智能回复,连打字都省了。
13年前,Siri首次问世,作为曾经首屈一指的智能语音助手曾经掀起巨大热度。如今,繁忙的Siri每天需要处理15亿次语音请求。而它离苹果「自由穿梭于系统中,随时听我们调遣」的愿景,也更近了一步!在Apple Intelligence的加持下,Siri变得更自然、更贴合语境了,因此也变得更加贴合我们。如今当我们和Siri对话时,它和系统的整合会更深入。当它运行时,优雅的光晕会环绕着屏幕边缘。 我们和Siri的对话也可以更自然,因为它能理解更丰富的语言。即使说话不连贯,它都能理解我们的意思。比如问它:明天缪尔海滩是什么天气,不对,是缪尔森林。它会清晰地理解你的意思,并且给出正确的回答。 即使我们在提问中停顿,思考一番,Siri依然能跟上我们。在对话中,Siri还能联系上下文。比如我们接着上面说「创建日历日程,明天上午9点去那里徒步」,它立马正确地理解「那里」指的是哪里,完成了指令。 如果我们不想跟Siri大声说话,现在可以直接给它打字了。只要在屏幕下方快速轻点两下,就能让Siri快速设好闹钟,整个过程悄无声息。跟Siri交流的过程中,我们可以在文字和语音中随时切换。而且,现在Siri掌握了大量关于功能和设置的信息,能回答数千个问题,关于如何在iPad或Mac上进行操作。 即使我们不知道某项功能的确切名称,只需要口头描述一番,Siri就能帮我们找到了!比如直接问它:「我想现在就写好信息,然后明天发送,该怎么做?」Siri完全明白我们说的是哪个功能,还提供了分步说明。 Apple Intelligence还会为Siri带来屏幕内容感知功能,这样,它就能理解屏幕上的内容,执行相应的操作。比如朋友发消息告诉你ta的新地址,你可以直接在信息对话中说,「把这个地址加入ta的联系人名片中」。 当然,Siri也可以完成跨app操作。比如我们可以说:「让我看看Stacey在纽约穿着粉色大衣的照片」,Siri就会把它们找出来,然后还能按照我们的指令开始修图。 然后,我们还可以让Siri把这张照片加到备忘录中Stacey的简介里,它就会从照片app跳转到备忘录app中,来完成操作。这些增强功能,也并不限于苹果开发的APP。比如,我们可以让Siri用Moment的Pro Camera,来拍摄光轨的视频。 也可以让Siri把我们备忘录里的会议摘要,分享到我们在Superhuman中给大家写的邮件里。下面的这个功能,就更酷炫了!通过为照片、日历日程、文件等创建语义索引,再加上往来消息和邮件的信息,比如预定酒店、音乐会门票的PDF文件、朋友分享的链接等,Siri能发现和理解的内容范围,将远超以往。如果我们忘了资料是在邮件、信息还是在共享备忘录里,Siri都能解决。比如我们需要找到朋友之前推荐的书单,或者是填表时需要驾照号码。 假如我们打算去机场接妈妈,Siri能直接帮我们规划时间。它能同时参考妈妈在邮件里写的航班详情,以及航班的实时动态,为我们提供最新的到达时间。而在和妈妈的闲聊中,她提到过中午订了餐厅,我们就可以直接问Siri去那家餐厅需要多久,完全不必在邮件、信息和地图中跳来跳去了!如苹果所说,今年将成为Siri新纪元的起点。 苹果「全家桶」用上GPT-4o
以上所展示的苹果AI能力,仅是一个「起点」。它能够以极为独特的方式理解你、尊重你、支持你。未来,苹果还将带来超多的实用功能,比如备忘录中的录音和转写功能。 它能够帮你更详细地记下笔记,专心听讲,完全可以替代GoodNotes、Notability这类的学习工具。录音/转写完成后,苹果AI还能帮你总结摘要,扫一眼便能抓住要点。 与此同时,录音/转写和苹果AI结合的能力,同样适用于电话应用。当你实时通话的时候,开启录音,所有的参与者都将会收到通知,并且通话结束后苹果AI也会生成一段摘要。
对于一些非常有用的外部AI工具,比如擅长处理某些需要广博知识,或者专业特长的任务,苹果直接将其模型纳入体验之中,而无需来回切换工具。当然,这个工具就是行业的翘楚、市场的开拓者和领头羊—— ChatGPT。苹果AI将用上全新的GPT-4o能力。首先,Siri可以借助ChatGPT的专长,随时为我们所用。比如,你想用刚钓的鱼,和自家种的菜为朋友准备一顿丰盛的大餐时,可以找Siri给些灵感。Siri便会问你,是否召唤ChatGPT,然后直接为你呈上最丰富的答案。 而且,问问题时,你还可以上传一张照片。比如,询问如何家装的建议,拍张照片然后问「这个露台种什么植物好看」?Siri会首先确认是否会向ChatGPT分享照片,然后才会为你找寻点子,整个过程完全就是一气呵成。 除了照片,你还可以询问关于文档、演示文稿,或者PDF中的相关问题。另外,苹果AI还借用了ChatGPT的编写能力,将其融入所有系统中适用的书写任务中。假设你想为擅长解谜的6岁女儿写一个睡前故事,初步构想是「她来到了梦幻的蝴蝶童话王国。她和一只毛毛虫成为了好友,并帮它克服重重困难,最终变成了一只蝴蝶」。只见,ChatGPT不一会儿功夫完成了一个Annie喜欢的小故事。 甚至,你还可以选中所有内容,让ChatGPT为其生成一副插画。 以上所有能力,无需注册ChatGPT,便可免费使用。对于那些订阅ChatGPT的用户们,也可以关联自己的账号,可以在使用苹果AI过程中接入付费的能力。不过,苹果再三强调,我们的请求和个人信息不会被记录。何时使用ChatGPT,都是你说了算,再分享任何信息之前,都会征求用户的许可。ChatGPT也将集成到这次所有更新的iOS 18、iPadOS 18、macOS Sequoia系统中,并在今年晚些时候推出。未来,其他先进的AI模型的能力,也会集成到苹果AI之中。不出所料,苹果AI能力仅限在iPhone15级别的手机上使用,不过对于iPad、MacBook还比较友好些,能够兼容M1芯片及以上的硬件。
ChatGPT在苹果全家桶中无缝集成能力虽炫酷,却遭到的全网非议。最先反对的就是马老板!他连发多篇帖子,对ChatGPT上机苹果表示不满,甚至扬言禁止公司所有成员使用苹果的设备。 我不想要这个能力。这就如同间谍软件一般,如果你们不阻止,我的公司将禁止使用任何苹果设备。 另外,马斯克还单独发帖子称:「对于公司的外部来访者,都必须在门口将他们的设备放在「法拉第笼」(Faraday cage)中」。 苹果没有能力开发AI,却能够确保OpenAI会保护你的安全和隐私。一旦苹果将你的数据交给OpenAI,他们就不知道OpenAI究竟会如何处理这些数据,他们实际上是在出卖你的隐私权。 也有众多网友对苹果的这项能力,产生了质疑。一位网友从底层架构图中得出,Siri可以读取手机上的所有数据(适用于选择加入的应用程序) 。 一家AI初创的CEO表示,老实说,我真不理解苹果为什么要把任何东西发送给ChatGPT?这太怪异了。为什么不直接让Meta授权,然后自己部署400B的Llama模?从70B开始也可以呀...他们口口声声强调隐私和安全,甚至声称你不应该相信任何人!结果他们却来了个180度大转弯——是的,我们正在把你的数据发送给ChatGPT。 还有人配上梗图讽刺道,「当奥特曼已耗尽100%互联网训练数据时,看到十亿部手机时」。
苹果AI背后模型训练过程揭秘
发布会之外,苹果还发布了一篇关于介绍苹果AI能力实现背后的基础模型的文章。 博客介绍道,苹果AI是由「多个」强大的生成式AI模型组成,这些模型专用于日常任务,并根据当前活动实时调整。他们强调,内置的基础模型针对用户体验进行了微调,比如编写和提炼文本、对通知优先排序汇总等等。 接下来,苹果详细介绍了两个经过微调建模的模型:一是,可以运行在终端设备中的30一参数模型。另一个是,更大的基于苹果芯片加持云服务器的基础模型,可用于私有云计算。其他模型还包括,用于编码的XCode,扩散模型(帮助用户如在Messages应用中,以视觉方式表达自我)。
苹果的基础模型,是在2023年发布的开源项目AXLearn框架之上训练的。AXLearn建立在JAX和XLA之上,可以在各种训练硬件和云平台上高效、可扩展地训练模型,包括TPU和云端及本地GPU。另外,苹果研究团队还采用了数据并行、张量并行、序列并行和全分片数据并行(FSDP)等组合方式,从数据、模型和序列长度等多个维度来扩展训练规模。 至于数据的选用,苹果表示自己用的是授权的数据训练基础模型。其中包括两种数据来源:一是经过精心选择,目的是提升模型的特定功能;二是,苹果网络爬虫AppleBot工具从网上公开采集的数据。
苹果团队意识到,数据质量对于模型的成功,至关重要。因此,他们在训练过程中,采用了「混合数据策略」,即结合使用人工标注和AI生成数据,并进行了彻底的数据筛选和处理。具体来说,研究团队在模型「后训练」阶段,开发了两种全新的算法:(1) 拒绝抽样的微调算法,使用多个教师模型作为参考,对模型输出进行过过滤和微调(2) 人类反馈强化学习算法,结合使用了镜像下降策略优化,以及留一法优势估计器(leave-one-out advantage estimator)新技术。结果发现,这两种算法可以显著提升模型指令跟随的质量。
另外,苹果还采用了一系列创新技术,在设备端和私有云上优化模型的速度和效率。他们对第一个token推理和扩展token推理的性能都进行了大量的优化。无论是设备端模型还是服务器端模型,都采用了「分组查询注意力机制」(grouped-query-attention)。苹果还使用了共享的输入和输出词表,以减少内存需求和推理成本。这些共享的嵌入张量在映射时不会产生重复。设备端模型的词表大小为49k token,而服务器端模型的词表大小为100k token。对于设备内推理,他们还是用了「低比特量化」(low-bit palletization)的技术,能满足所需的内存、功耗和性能要求。为了保持模型输出质量,研究团队开发了一种新框架——使用LoRA adapter,并采用了混合2位和4位的配置策略,平均每个权重占3.5位——从而达到与未压缩模型相同的精度水平。此外,他们还使用了一种名为「Talaria」模型,可以对模型的延迟和功耗进行交互式分析,更好地指导在不同操作中选择合适的量化精度。苹果基础模型还采用了激活值量化和嵌入量化技术,并且开发了一种在苹果神经网络引擎上高效更新键值缓存的方法。值得一提的是,通过以上优化,iPhone 15 Pro可实现每个提示token首次输出的延迟约为0.6毫秒,生成速率为每秒30个token。这一性能实现,并未采用token猜测技术,如若开启,速度将会更近一步提升。
苹果基础模型针对用户日常任务进行了微调,并且能够根据实时任务完成动态化适应。这一过程实现,是借助适配器,即一些可以插入到预训练模型各层的小型神经网络模块,对模型进行特定任务的微调。通过调整适配器中注意力相关的参数和前馈网络的参数,可以让整个LLM的行为专门化到特定任务上。
针对总结功能的评估中,苹果与微软Phi-3-mini小模型进行了对比。可以看得出,不论是在邮件、还是通知中,苹果设备端30亿参数的模型在「优秀」和「差」的生成中更占优势。 苹果还将自家模型,与开源模型(Phi-3、Gemma、Mistral、DBRX)和商业模型(GPT-3.5-Turbo、GPT-4-Turbo)进行了比较。结果发现,人类评估者更倾向于苹果模型输出的结果。在这个基准测试中,30亿参数设备端模型的表现甚至超过了更大的模型,如Phi-3-mini、Mistral-7B和Gemma-7B。而服务器端模型在性能上,甚至可与DBRX-Instruct、Mixtral-8x22B和GPT-3.5-Turbo相媲美,同时效率极高。 对于模型输出危害评估,苹果模型比率最低,说明输出有毒内容较少。 与此同时,苹果模型在安全提示的评估中,设备端模型完全碾压Phi-3-mini、Mistral-7B,服务端模型打败了DBRX-Instruct、Mixtral-8x22B。 在指令跟随(IFEval)基准上,与其他模型相比,苹果模型展现出了强大的能力。 最后一个是写作基准,终端上的苹果基础模型,是性能最优的。在服务器端,作文方面的能力还是不如GPT-4 Turbo。
二代VisionOS更新,苹果头显月底登陆中国
据上次发布Vision Pro和Vision OS刚刚过去4个月,苹果就又在WWDC上宣布了Vision OS的重大更新。而且,还有让中国用户更加激动的消息——库克在发布会上正式官宣,Vision Pro 将于6月28日登陆中国市场,将于本周五(6月14日)开始接受预定,国行价格为29999元起。 Vision Pro中的照片App集成了空间计算技术,戴上就可以浏览「3D」照片,让你有走进照片、「重现过去」的感觉。最新的iPhone 15 Pro和Max的后置镜头已经可以拍摄空间影像,苹果也和佳能合作为专业照相机开发了空间镜头。 那以前拍摄的传统平面照片呢?自然也不能落下。Vision Pro集成的机器学习模型,可以将照片从单视角变为双眼视角,还能添加图像深度,瞬间2D变3D。 之前的Vision Pro已经可以和Mac集成,苹果这次决定升级Vision中的虚拟屏幕,同时提高分辨率和屏幕宽度。今年的更新后,一个Vision Pro相当于电脑的两个4k外接屏幕,动态注视点技术让你无论从哪个角度看屏幕都无比清晰。 而且,这个虚拟屏可以随时打开,比如「旅行模式」可以让你在飞机上随时大屏追剧或私密办公。 Vision Pro想要变得越来越好用,让以上这些功能走入现实,不能少了开发者的App和创作者的优质内容。目前已经有超过2000个专门为Vision Pro开发App,以及其他1.5万个兼容VisionPro的手机或平板应用。这次Vision Pro的更新也包括了各种服务于开发者的API: