经验分享：如何在创业中，用上GPT-3等AI大模型

2022 年 3 月 2 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源：数据实战派 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        

     
     
       
    
    
      
    
    
      
     
     
       
      
      
        
       
       
          
            本文约2048字，建议阅读5分钟 
           
           本文介绍 
           了初创公司都以何种方式利用机器学习来竞争各自的市场。

随着机器学习技术的逐渐成熟并从学术走向工业，支持大规模机器学习所需的方法和基础设备也在不断发展。利用这些进步对初创公司来说机遇与风险并存——几乎所有初创公司，都以各种方式利用机器学习来竞争各自的市场。

在这之前差不多经历了 9 年多的时间，当时的深度学习革命起源于一个 2012 年起，一年一度的竞赛，即 AlexNet 的 ImageNet LSVRC 竞赛（由研究社群举办的计算机视觉竞赛）。在一次比拼中，一个三人小组（Alex Krizhevsky、Illya Sutskever 和 Geoffrey Hinton）使用了一种称为卷积神经网络的技术来理解照片的内容。他们毫无悬念地赢得了比赛——以相当大的优势击败了所有其他人——并且他们使用的系统仅仅是在 700 美元的游戏显卡上训练出来的。

至此机器学习的世界永远地改变了。

一年之内，初创公司开始涌现以复制 AlexNet 的成功。我之前的公司 AlchemyAPI（2015 年被 IBM 收购）早在 2013 年就使用我们的 AlchemyVision 计算机视觉 API 发布了这项工作的第一个商业版本。大约在这个时候成立的其他初创公司还包括 DeepMind（被谷歌收购）、MetaMind（被 Salesforce 收购）和 Clarifai 等。学术界也发生了巨大变化，许多专家迅速从对人工智能的怀疑转变为全心全意地拥抱深度学习。

快进到 2022 年：神经网络已经改变了我们日常使用的软件系统中机器智能的方方面面，从识别我们的语音，到推荐我们的新闻摘要中的内容（且不论好坏）。

现在的系统仍然使用神经网络——但规模大不相同。最近用于理解和生成人类语言的系统，例如 OpenAI 的 GPT-3，在超级庞大的数据上进行了训练：数千块 GPU（每块至少花费一千美元）被编织成一个由高速网络互连的数据存储基础设施组成的复杂结构。虽然 2012 年最先进的系统可以在 700 美元的游戏显卡上进行训练，但今天的最先进系统——通常被称为预训练模型——可能需要用数千万美元的计算设备来训练。

这些大规模、高成本的预训练模型的出现为初创公司和其他希望在人工智能或机器学习方面进行创新的人带来了机遇、风险和限制。尽管它们可能无法在研究的前沿与谷歌、Facebook 或 OpenAI 竞争，但小微企业可以利用这些巨头的工作，当然包括预训练模型，来启动他们自己的基于机器学习的应用程序的开发。

预训练网络为小型团队提供支持

AlexNet 等神经网络最初是针对每项任务从头开始训练的——当网络需要几周时间在单块游戏显卡上进行训练时，这是可行的，但随着网络规模、计算资源和训练数据量开始按需求扩展时，难度要大得多。这导致了一种称为预训练的方法的普及，该方法首先使用大量计算资源在大型通用数据集上训练神经网络，然后使用更少量的资源，比如数据和计算资源，对手头的任务进行微调。

近年来，随着机器学习在许多领域的工业化和落地（例如语言或语音处理），并且可用于训练的数据量急剧增加，预训练网络的使用量也呈爆炸式增长。例如，使用预先训练的网络可以让初创公司使用少得多的资源来（相比于从头开始训练所需的数据和计算资源）研发产品。这种方法在学术界也越来越流行，研究人员可以快速微调预训练网络以完成新任务，然后发表成果。

对于某些任务领域——包括理解或生成书面文本、识别照片或视频的内容以及音频处理——随着预训练模型的出现而不断发展，比如 BERT、GPT、DALL -E、CLIP 还有一些其他的模型。这些模型在大型通用数据集（通常是数十亿个训练示例的数量级）上进行了预训练，并由资金充足的 AI 实验室（例如谷歌、微软和 OpenAI 的实验室）以开源形式发布。

商业化机器学习应用的创新速率与这些预训练模型的公益化效果不容小觑。对于那些没有配备超级计算机的现场工作人员来说，它们一直是灵丹妙药。它们使初创公司、研究人员和其他人能够快速掌握最新的机器学习方法，而无需花费时间和资源从头开始训练这些模型。

预训练模型的风险：规模、成本和外包创新

然而，在预训练的基础模型领域，并不是所有的模型都面对着一片坦途，而且随着它们的应用越来越多，风险也接踵而来。

与预训练模型相关的风险之一便是其规模的不断扩大。谷歌的 T5-11 b（于 2019 年开源）等神经网络已经需要一组昂贵的 GPU 来简单地加载和进行预测。而微调这些系统需要更多的资源。由谷歌、微软、OpenAI 在 2021-2022 年间创建的最新模型通常非常庞大，以至于这些公司没有将它们作为开源发布——它们现在需要数千万美元来创建，并且越来越多地被视为重要的 IP 投资，即使对于这些巨头来说也是如此。

然而，即便这些最新模型是开源的，仅仅加载这些网络以进行预测（机器学习用语中的“推理”）所涉及的资源需求量，也比许多初创公司和学术研究人员可以运用多。例如，OpenAI 的 GPT-3 需要大量 GPU 才能加载。即使使用 Amazon Web Services 等现代云端计算，也需要将数十台 Amazon 最昂贵的 GPU 机器配置到高性能计算集群中。

对于那些使用预训练模型的人来说，数据集对齐也是一个挑战。对大型通用数据集进行预训练并不能保证网络能够对专有数据执行新任务。网络可能缺乏上下文信息或存在基于其预训练的偏见，以至于即使进行微调也可能无法轻易解决问题。

例如，自然语言处理领域的流行预训练模型 GPT-2 最初于 2019 年初宣布，因此模型是对在该日期或之前收集的数据进行了训练。想想自 2019 年以来发生的一切——疫情，有任何涉及吗？最初的 GPT-2 模型肯定会知道什么是流行病，但是缺乏围绕 COVID-19 及其近年来出现的变异株的详细信息。

为了说明这一点，这里是 GPT-2 试图完成句子“COVID-19 是……”：GPT-2 (2019)：“COVID-19 是一种高容量 LED 屏幕，可显示有关电池大小和状态的信息。”

相比之下，2021 年发布的开源语言模型 GPT-J 完成的句子如下：

GPT-J (2021)：“COVID-19 是一种新型冠状病毒，主要影响呼吸系统，会导致一种具有多种临床表现的疾病。”

相当戏剧性的差异对吧？数据集对齐和训练数据的时效性可能非常重要，具体取决于用例。任何在机器学习工作中利用预训练模型的初创公司都应该密切关注这些类型的问题。

云 API 更易得，但外包不是免费的

OpenAI、微软和英伟达等公司已经看到了计算资源需求规模增加所带来的挑战，并正在通过云 API 做出措施，这些 API 能够在其托管的基础设施上运行推理和微调大型模型。

当然，每个主要的云提供商现在都提供一套机器学习服务，在某些情况下，还提供专为这些工作负载设计的定制处理器。这可以通过将计算和基础设施挑战转移给更大的公司，为初创公司、研究人员甚至个人爱好者提供有限的应对措施。

然而，这种方法有其自身的风险。无法托管您自己的模型意味着依赖集中式的计算集群进行训练和推理。这可能会在构建预备投入生产的机器学习应用程序时产生外部风险：网络中断、API 的并发性故障或速率限制，或者托管公司的政策变化可能会导致的重大运营影响。此外，当敏感的标记数据集（其中一些可能被 HIPAA 等法规涵盖）必须发送给云提供商进行微调或推理时， IP 泄漏的可能性可能会让一些人感到不舒服。

从底线的角度来看，调用这些 API 对 COGS（销售成本）的影响，也可能是那些使用云计算来满足其机器学习需求的人关注的问题。使用价格因供应商而异，更不用说 API 调用、数据存储和云实例的成本将随着您的使用而增加。如今，许多使用云 API 进行机器学习的公司最终可能会尝试过渡到自托管或自训练模型，以更好地控制其机器学习途径并消除外部风险和成本。

使用托管和预训练模型的机会和风险导致许多公司在“试验阶段”利用云 API 来启动产品开发。这正是一家公司试图寻找适合其产品的市场的时候。利用云 API 可以让公司快速启动并大规模运行其产品，而无需投资于昂贵的基础计算设施、模型训练或数据收集。来自谷歌、IBM、微软和 OpenAI 等提供商的云机器学习服务和托管的预训练模型现在正为数千家初创公司和学术研究项目提供支持。

一旦公司确认其产品与市场契合，它通常会过渡到自托管或自训练模型，以获得对数据、流程和知识产权的更多控制。这种转变可能很困难，因为公司需要能够扩展其基础架构以满足模型的需求，还要进行管理与数据收集，还伴随着注释和存储相关的成本上升。为了实现这一转变，公司正筹集越来越多的投资者资金。

我最近的创业公司 Hyperia 最近就进行了这样的转变。早期，我们在努力了解业务会议和客户语音对话的内容时尝试了云 API。但最终我们决定从头掌控我们自己的事务，启动了大规模的数据收集和模型训练工作，以构建我们自己的专有语音和语言引擎。对于许多商业模式来说，如果要实现积极的单位经济化和市场差异化，这种演变是不可避免的。

具备战略性并密切关注大型人工智能实验室

预训练模型是机器学习中最新的颠覆性趋势之一，但不会是最后一个。

在公司继续建造更大的机器学习超级计算集群（Facebook 最新的计算集群包括超过 16,000 块 GPU）的同时，研究人员正忙于开发新技术以降低训练和托管最先进的神经网络的计算成本。谷歌最新的 LaMDA 模型利用多项创新来比 GPT-3 更有效地训练，学术界正在迅速研发模型蒸馏和嘈杂学生训练等技术以减小模型大小。

这样或那样的创新成果意味着初创公司可以继续创新——但随着环境的不断变化，保持警惕是很重要的。值得警惕的事情包括：