下一个进步的标志：4次解锁新一代人工智能领域

大型语言模型（LLM）在科技行业掀起了一场风暴，为只能被描述为神奇的体验提供了动力——从在几秒钟内编写一周的代码，到生成比我们与人类的对话更具同理心的对话。LLM通过数千个GPU的集群，在数万亿的数据标记上进行训练，表现出非凡的自然语言理解能力，并改变了复制和代码等领域，将我们推向了一个新的、令人兴奋的人工智能生成时代。与任何新兴技术一样，生成人工智能也受到了一些批评。尽管这些批评确实反映了LLM当前能力的局限性，但我们认为这些障碍并不是技术中的根本缺陷，而是进一步创新的机会。

为了更好地了解LLM的近期技术突破，并为创始人和运营商做好准备，我们采访了一些领先的生成人工智能研究人员，他们正在积极构建和培训一些最大、最前沿的模型：Anthropic首席执行官Dario Amodei；Cohere首席执行官Aidan Gomez；Character.AI首席执行官诺姆·沙泽尔；以及AI21实验室的Yoav Shoham。这些对话确定了即将出现的4项关键创新：转向、记忆、“胳膊和腿”以及多模态。在这篇文章中，我们讨论了这些关键创新将在未来6到12个月内如何发展，以及对将人工智能融入自己的业务充满好奇的创始人如何利用这些新进展。

转向
许多创始人对在其产品和工作流程中实施LLM持谨慎态度，这是可以理解的，因为这些模型可能会产生幻觉并重现偏见。为了解决这些问题，几家领先的模型公司正在致力于改进指导——一种对LLM输出进行更好控制的方法——以关注模型输出，并帮助模型更好地理解和执行复杂的用户需求。Noam Shazeer在这方面将LLM和儿童进行了比较：“这是一个如何更好地指导（模型）的问题……LLM有一个问题，我们只需要正确的方法来告诉他们做我们想做的事。小孩子也是这样——他们有时会编造事情，对幻想与现实没有把握。”

尽管模型提供商在可操纵性方面取得了显著进展，Guardrails和LMQL等工具也出现了，但研究人员仍在继续取得进展，我们认为这是最终用户更好地生产LLM的关键。

在企业公司中，改进指导变得尤为重要，因为不可预测的行为可能会带来高昂的代价。Amodei指出，LLM的不可预测性“让人们大吃一惊”，作为API提供商，他希望能够“直视客户的眼睛说‘不，模型不会这样做’，或者至少很少这样做。改进的指导也将为在其他精度和可靠性要求更高的行业中更广泛地采用铺平道路，比如广告投放的风险很高的广告。Amodei还看到了各种用例，从“法律用例、医疗用例、存储财务信息和管理财务赌注，到你需要维护公司品牌的地方。你不希望你所采用的技术是不可预测的或难以预测或描述的。”

有了更好的指导，LLM也将能够以不那么迅速的工程来完成更复杂的任务，因为他们将能够更好地理解整体意图。

LLM指导的进步也有可能在敏感的消费者应用中释放新的可能性，在这些应用中，用户期望得到量身定制的准确响应。虽然用户在出于对话或创造性目的与LLM接触时可能愿意容忍LLM的不太准确的输出，但在使用LLM协助他们完成日常任务、就重大决策向他们提供建议或增强生活教练、治疗师和医生等专业人员时，用户希望获得更准确的输出。一些人指出，LLM准备取代搜索等根深蒂固的消费者应用程序，但在这成为真正的可能性之前，我们可能需要更好的指导来改善模型输出并建立用户信任。
密钥解锁：用户可以更好地定制LLM的输出。

记忆力
LLM支持的文案和广告生成应用程序已经取得了良好的效果，导致营销人员、广告商和斗志旺盛的企业家迅速接受。然而，目前，大多数LLM输出都是相对通用的，这使得很难将它们用于需要个性化和上下文理解的用例。虽然即时工程和微调可以提供一定程度的个性化，但即时工程的可扩展性较差，微调往往成本高昂，因为它需要一定程度的重新培训，并且经常与大多数封闭源LLM密切合作。为每个用户微调模型通常是不可行或不可取的。

在上下文学习中，LLM从您公司制作的内容、您公司的特定术语和您的特定上下文中提取，这是圣杯——创建更精细、更适合您特定用例的输出。为了解锁这一点，LLM需要增强内存功能。LLM内存有两个主要组件：上下文窗口和检索。上下文窗口是模型除了训练的数据语料库之外，还可以处理和使用的文本，以告知其输出。检索是指从模型训练数据语料库（“上下文数据”）之外的数据体中检索和引用相关信息和文档。目前，大多数LLM的上下文窗口有限，无法以本机方式检索附加信息，因此生成的个性化输出较少。然而，有了更大的上下文窗口和改进的检索，LLM可以直接提供更精细的输出，以适应单个用例。

特别是通过扩展上下文窗口，模型将能够处理大量文本并更好地维护上下文，包括通过对话保持连续性。反过来，这将大大提高模型执行任务的能力，这些任务需要对较长的输入进行更深入的理解，例如总结长篇文章或在扩展对话中生成连贯且上下文准确的回答。我们已经看到上下文窗口有了显著的改进——GPT-4同时有8k和32k令牌上下文窗口，而GPT-3.5和ChatGPT的上下文窗口分别为4k和16k，Claude最近将其上下文窗口扩展到了惊人的10万个令牌。

单独扩展上下文窗口并不能充分提高内存，因为推理的成本和时间与提示的长度成准线性甚至二次线性。检索机制利用与提示最相关的上下文数据来扩充和细化LLM的原始训练语料库。Shoham表示，由于LLM是根据一组信息进行训练的，通常很难更新，因此检索有两个主要好处：“首先，它允许你访问训练时没有的信息源。其次，它使你能够将语言模型集中在你认为与任务相关的信息上。“像Pinecone这样的矢量数据库已经成为有效检索相关信息的事实标准，并成为LLM的存储层，使模型更容易在大量信息中快速准确地搜索和引用正确的数据。

增加的上下文窗口和检索对于导航大型知识库或复杂数据库等企业用例来说将是非常宝贵的。公司将能够更好地利用其专有数据，如内部知识、历史客户支持票据或财务结果，作为LLM的输入，而无需进行微调。提高LLM的记忆力将提高培训、报告、内部搜索、数据分析和商业智能以及客户支持等领域的深度定制能力。

在消费者领域，改进的上下文窗口和检索将实现强大的个性化功能，从而彻底改变用户体验。Noam Shazeer认为，“最大的解锁之一将是开发一种模型，这种模型既有很高的记忆能力，可以为每个用户定制，但仍然可以大规模提供经济高效的服务。你希望你的治疗师了解你生活的方面；你想让你的老师了解你已经知道的东西；你希望有一位生活教练可以就正在发生的事情向你提供建议。”。他们都需要背景。”艾丹·戈麦斯同样对这一发展感到兴奋。“通过让模型访问你独有的数据，比如你的电子邮件、日历或直接消息，”他说，“模型将了解你与不同人的关系，以及你喜欢如何与朋友或同事交谈，并可以在这种情况下帮助你发挥最大的作用。”

密钥解锁：LLM将能够考虑大量相关信息，并提供更个性化、量身定制和有用的输出。

“胳膊和腿”：赋予模特使用工具的能力
LLM的真正力量在于使自然语言成为行动的渠道。LLM对常见且文档齐全的系统有着复杂的理解，但它们无法对从这些系统中提取的任何信息执行。例如，OpenAI的ChatGPT、Anthropic的Claude和Character AI的Lily可以详细描述如何预订航班，但他们自己无法预订航班（尽管ChatGPT的插件等进步开始突破这一界限）。阿莫迪说：“有一个大脑在理论上掌握了所有这些知识，只是缺少了从名字到你按下的按钮的映射。”。“把这些电缆连接在一起不需要太多训练。你有一个没有实体的大脑，知道如何移动，但它还没有连接胳膊或腿。”

随着时间的推移，我们看到公司稳步提高LLM使用工具的能力。必应（Bing）和谷歌（Google）等现任公司以及困惑（Perplexity）和You.com等初创公司推出了搜索API。AI21实验室推出了Jurasic-X，它通过将模型与预先确定的一组工具（包括计算器、天气API、维基API和数据库）相结合，解决了独立LLM的许多缺陷。OpenAI测试版插件允许ChatGPT与Expedia、OpenTable、Wolfram、Instacart、Speak、网络浏览器和代码解释器等工具进行交互，这一解锁与苹果的“应用商店”时刻相提并论。最近，OpenAI在GPT-3.5和GPT-4中引入了函数调用，允许开发人员将GPT的功能链接到他们想要的任何外部工具。

通过将范式从知识挖掘转变为行动导向，增加手臂和腿有可能解锁跨公司和用户类型的一系列用例。对于消费者来说，LLM可能很快就能为你提供食谱创意，然后订购你需要的食品杂货，或者建议一个早午餐地点并预订你的餐桌。在企业中，创始人可以通过插入LLM来使他们的应用程序更容易使用。正如Amodei所指出的，“对于从UI角度来看很难使用的功能，我们可以通过用自然语言描述它们来实现复杂的事情。”例如，对于Salesforce这样的应用程序，LLM集成应该允许用户用自然语言进行更新，并让模型自动进行这些更改，从而大大减少维护CRM所需的时间。Cohere和Adept等初创公司正在致力于将其集成到这些复杂的工具中。

Gomez认为，虽然LLM在2年内能够使用Excel等应用程序的可能性越来越大，“还有很多改进需要进行。我们将有第一代模型，它们可以使用令人信服但脆弱的工具。最终，我们将获得梦想系统，在那里我们可以为模型提供任何软件，并描述‘这是工具的作用，这是你如何使用它’，它将能够使用它。”。一旦我们能够用特定和通用的工具来增强LLM，它所解锁的那种自动化就是我们领域的皇冠明珠。”
密钥解锁：LLM将能够与我们今天使用的工具进行更有效的交互。

多模态
虽然聊天界面对许多用户来说是令人兴奋和直观的，但人类听到和说语言的频率或比他们写或读的频率更高。正如阿莫迪所指出的，“人工智能系统的功能是有限的，因为并非所有东西都是文本。”具有多模态的模型，或能够无缝处理和生成多种音频或视觉格式的内容的模型，将这种互动改变为超越语言。GPT-4、Character.AI和Meta的ImageBind等模型已经处理和生成图像、音频和其他模态，但它们的处理和生成水平更为基本，尽管正在迅速提高。用戈麦斯的话来说，“我们的模型在今天的字面意义上是盲目的——这需要改变。我们已经构建了很多假设[用户]可以看到的图形用户界面（GUI）。”

随着LLM更好地理解多种模式并与之交互，它们将能够使用当今依赖GUI的现有应用程序，如浏览器。他们还可以为消费者提供更吸引人、更互联、更全面的体验，消费者将能够在聊天界面之外参与。Shazeer指出：“与多模式模型的大量集成可以让事情变得更加吸引人，并与用户建立联系。”。“我相信，就目前而言，大多数核心智能来自文本，但音频和视频可以让这些东西变得更有趣。”从与人工智能导师的视频聊天，到与人工智能合作伙伴迭代和编写电视试播脚本，多模式有可能改变各种消费者和企业用例的娱乐、学习和开发以及内容生成。

多模式性也与工具的使用密切相关。虽然LLM最初可能通过API与外部软件连接，但多模式将使LLM能够使用为没有自定义集成的人类设计的工具，如传统ERP、桌面应用程序、医疗设备或制造机械。我们已经看到了这方面令人兴奋的发展：例如，谷歌的Med-PaLM-2模型可以合成乳房X光片和X光片。从长远来看，多模态——特别是与计算机视觉的集成——可以通过机器人、自动驾驶汽车和其他需要与物理世界实时交互的应用程序，将LLM扩展到我们自己的物理现实中。
密钥解锁：多模式模型可以对图像、视频甚至物理环境进行推理，而无需进行重大调整。

虽然LLM确实存在局限性，但研究人员在短时间内对这些模型进行了惊人的改进——事实上，自我们开始写这篇文章以来，我们已经多次更新了这篇文章，这证明了这项技术在该领域的飞速发展。戈麦斯同意：“LLM把事实虚构了1/20次显然仍然太高了。但我仍然非常有信心，因为这是我们第一次建立这样的系统。人们的期望值很高，所以目标已经从‘计算机很笨，只会做数学’变成了‘人类本可以做得更好’。我们已经充分缩小了差距围绕着人类的能力。”

我们对这4项创新感到特别兴奋，它们即将改变创始人构建产品和运营公司的方式。从长远来看，潜力甚至更大。阿莫迪预测，“在某个时候，我们可能会有一个模型，它会通读所有的生物学数据，并说：这是癌症的治疗方法。”现实地说，最好的新应用可能仍然未知。在Character.AI，Shazeer让用户开发这些用例：“我们会看到很多新的应用程序被解锁。我很难说这些应用程序是什么。它们将有数百万个，用户比几个工程师更善于弄清楚如何使用这项技术。”。“我们等不及这些进步将对我们的生活和工作方式产生变革性影响，因为创始人和公司都被赋予了这些新的工具和能力。

a16z风险投资公司研究报告

通过支持企业家用技术建设未来

下一个进步的标志：4次解锁新一代人工智能领域