生成式 AI 和基础模型的经济案例 | a16z风险投资公司研究报告

自20世纪50年代以来，人工智能一直是计算机科学的主要内容。多年来，它也为能够有效部署它的企业赚了很多钱。然而，正如我们在最近撰写的一篇专栏文章中所解释的那样——这是我们在这里进行更详细论证的一个很好的起点——这些收益大多流向了大型现有供应商（如谷歌或Meta），而不是初创公司。直到最近，随着生成人工智能及其所包含的一切的出现，我们还没有看到以人工智能为先的公司通过直接竞争或使旧公司过时的全新行为严重威胁其更大、更成熟的同行的利润。

然而，随着生成型人工智能应用程序和基础模型（或前沿模型）的出现，情况看起来大不相同。令人难以置信的性能和采用，再加上快速的创新步伐，表明我们可能正处于一个周期的早期，这个周期将以自微芯片和互联网以来从未见过的水平改变我们的生活和经济。
这篇文章探讨了传统人工智能的经济性，以及为什么使用人工智能作为核心区别因素的初创公司通常很难达到逃逸速度（这是我们过去写过的）。然后，它涵盖了为什么生成型人工智能应用程序和大型基础模型公司看起来非常不同，以及这对我们的行业可能意味着什么。

能力！=经济学
从历史上看，人工智能的问题并不是它不起作用——它长期以来一直产生令人费解的结果——而是它一直抵制在私人市场建立有吸引力的纯商业模式。从基本面来看，不难看出为什么从人工智能中获得巨大的经济效益对初创公司来说很困难。
尾巴很长
许多人工智能产品需要确保即使在罕见的情况下也能提供高精度，通常被称为“尾巴”。尽管任何特定的情况本身都可能很罕见，但总的来说往往会有很多罕见的情况。这很重要，因为随着案例的减少，处理这些案例所需的投资水平可能会飙升。对于创业公司来说，这些可能是不合理的规模经济。

例如，制造一个能够以80%的准确度采摘樱桃的机器人可能需要2000万美元的投资，但如果你需要90%的准确度，所需的投资可能会激增至2亿美元。达到95%的准确率可能需要10亿美元。这不仅需要大量的前期投资才能在不太依赖人类的情况下获得足够的准确性（否则，有什么意义？），而且还会导致投资资本的边际回报递减。除了达到和保持所需的准确度可能需要大量资金外，不断上升的进步成本也可能成为领导者的反护城河——他们在研发上烧钱，而快速追随者则在学习的基础上再接再厉，以很小的成本缩小差距。

正确性问题
许多传统的人工智能问题领域并不能特别容忍错误的答案。例如，客户成功机器人不应该提供糟糕的指导，支票存款的光学字符识别（OCR）不应该误读银行账户，（当然）自动驾驶汽车不应该做任何非法或危险的事情。尽管人工智能已被证明在一些定义明确的任务上比人类更准确，但在上下文重要的长尾问题上，人类往往表现得更好。因此，人工智能驱动的解决方案通常仍然使用人工来确保准确性，这种情况可能很难扩展，而且往往会成为沉重的成本，影响毛利率。

人类的大脑和身体在某些方面既廉价又令人敬畏
人体和大脑组成了一个模拟机器，经过数亿年的进化，它可以在物理世界中导航。它消耗大约150瓦的能源，靠一碗粥运行，非常善于解决尾部问题，全球平均工资大约为每小时5美元。对于世界上一些地区的一些任务，平均工资每天不到一美元。

对于许多应用来说，人工智能不是与传统的计算机程序竞争，而是与人类竞争。当这份工作涉及碳生命的一项更基本的能力时，比如感知，人类往往更便宜。或者，至少，通过使用人员以相对较小的投资获得合理的准确性要便宜得多。创业公司尤其如此，它们通常没有大型、复杂的人工智能基础设施可供构建。
同样值得注意的是，人工智能通常比人类所能实现的目标更高（如果新系统没有明显改善，为什么要改变系统？）。因此，即使在人工智能明显更好的情况下，它仍然处于劣势。

缺乏新的紧急用户行为
这是一个非常重要但却被低估的观点。可能是由于人工智能在很大程度上是对现有产品的补充，它没有引入许多新的用例，这些用例已经转化为更广泛的消费者群体中的新用户行为。新用户行为往往是大规模市场转变的基础，因为它们往往始于在职者不理解或不关心的边缘世俗运动。（想想个人微型计算机、互联网、个人智能手机或云。）这是初创公司满足新兴消费者需求的沃土，而不必在其核心领域与根深蒂固的现有公司竞争。

当然也有例外，比如家庭语音助理引入的新行为。但即使是这些也突显了现任者在人工智能产品中的主导地位，因为在这一领域明显缺乏被广泛采用的独立者。
自动驾驶汽车是人工智能挑战的缩影
自动驾驶汽车是一个极端但能说明为什么人工智能对初创公司来说很难的例子。AV需要尾部正确性（出错是非常非常糟糕的）；可操作的AV系统通常依赖于大量的人工监督；它们在感知方面与人脑竞争（与一些消耗1300瓦以上的高端CPU/GPU AV设置相比，感知功率约为12瓦）。因此，尽管转向电动汽车有很多原因，包括安全、效率和交通管理，但与拼车服务相比，经济性仍然不太好，更不用说自己开车了。尽管估计已经在AV技术上投资了750亿美元，但情况依然如此。

当然，还有一些更窄的用例更引人注目，比如卡车运输或定义明确的校园路线。此外，经济状况一直在好转，很可能很快就会超过人类。但考虑到投资水平和实现这一目标所需的时间，再加上持续的运营复杂性和风险，难怪广义AV在很大程度上已经成为大型上市公司的努力，无论是通过孵化还是收购。

可怕的人工智能平庸在私人市场螺旋上升
由于我们上面列出的原因，创建一个以人工智能为核心区别的高利润、高增长业务的困难导致了初创公司在尝试这样做时遇到了众所周知的困难。文章中的这一假设很好地概括了这一点：
为了让这家初创公司在早期就有足够的正确性，它雇佣了人类来执行它希望人工智能随着时间的推移将自动化的功能。通常，这是升级路径的一部分，在升级路径中，人工智能的第一部分将处理80%的常见用例，由人类管理尾部。

早期投资者往往更关注增长，而不是利润率，因此为了筹集资金并让董事会满意，该公司继续雇佣员工，而不是投资自动化——事实证明，由于前面提到的长尾问题，这很棘手。当该公司准备好进行增长级投资时，它已经建立了一个围绕雇佣和运营循环中的人员的整个组织，这太难放松了。其结果是，企业可以显示出相对较高的初始增长，但保持较低的利润率，随着时间的推移，很难扩大规模。

不过，人工智能的平庸螺旋并不是致命的，你确实可以从中建立规模可观的上市公司。但经济性和规模往往落后于以软件为中心的产品。因此，我们历史上从未见过一波快速增长的人工智能初创公司有破坏现有公司稳定的势头。相反，他们倾向于转向更困难、更棘手、更复杂的问题，或者成为构建定制解决方案的服务公司，因为他们有人来处理这些类型的事情。
然而，随着生成型人工智能的出现，这一切都在改变。

生成人工智能和基础模型有何不同
在过去的几年里，我们看到了在大型基础模型之上或结合大型基础模型的新一轮人工智能应用。这一趋势通常被称为生成人工智能，因为模型用于生成内容（图像、文本、音频等），或者简单地称为大型基础模型，因为底层技术可以适应内容生成之外的任务。出于这篇文章的目的，我们将把它全部称为生成人工智能。

考虑到人工智能的悠久历史，人们很容易将其视为另一个最终会冷却的炒作周期。然而，这一次，人工智能公司表现出了前所未有的消费者兴趣和采用速度。自2022年中后期进入时代精神以来，生成型人工智能已经产生了我们在科技行业历史上看到的一些增长最快的公司、产品和项目。举个例子：ChatGPT仅用了5天就达到了100万用户，这让世界上一些最具标志性的消费公司黯然失色（Meta的线程最近在几个小时内达到了100多万，但它是从现有的社交图中启动的，所以我们不认为这是一个苹果对苹果的比较）。

比早期快速增长更引人注目的是，它的持续性质和规模超出了产品最初推出时的新颖性。自推出以来的6个月内，ChatGPT估计每个Yibit的全球月活跃用户数超过2.3亿。直到2009年，Facebook才实现了相当于1.97亿的MAU——这距离它首次进入常春藤联盟已经5年多了，距离社交网络向公众开放已经3年了。

虽然ChatGPT是一个明显的人工智能巨头，但它绝不是唯一一个生成性人工智能的成功故事：
文本到图像人工智能公司Midtravel在2022年7月推出公测版不到一年后，其Discord服务器于2023年6月激增至近1500万会员，成为Discord上最大的服务器。
Character.AI是一家垂直整合的人工智能配套提供商，在推出仅9个月后，估计每月活跃的独立网络访客达到1800万，日活跃网络用户超过300万（每个SimilarWeb），不包括5月份成功推出的移动应用。从每个用户的参与度来看，用户群的增长尤其令人印象深刻——活跃用户（定义为在平台上发送至少1条消息的用户）平均每天在平台上超过2小时。
聊天机器人公司Janitor AI等较新的初创公司自报在推出几周内就拥有超过100万用户。

人工智能开发者市场也出现了巨大的增长。例如，大图像模型Stable Diffusion的发布，在采用速度和普及率方面，摧毁了近代史上一些最成功的开源开发者项目。Meta的Llama 2大型语言模型（LLM）在7月发布后的几天内，通过Replicate等平台吸引了数十万用户。

这些前所未有的采用水平是我们相信有一个非常有力的论点的一个重要原因，即生成人工智能不仅在经济上可行，而且可以推动与微芯片和互联网同等水平的市场转型。
为了理解为什么会出现这种情况，有必要看看生成性人工智能与以前将人工智能商业化的尝试有何不同。

正确性被高估了
生成人工智能的许多用例都不在具有正式正确性概念的领域内。事实上，目前最常见的两种用例是内容的创造性生成（图像、故事等）和陪伴（虚拟朋友、同事、头脑风暴伙伴等）。在这些情况下，正确只是意味着“吸引或吸引用户”。此外，其他流行的用例，如帮助开发人员通过代码生成编写软件，往往是迭代的，其中所述用户实际上是循环中的人，所述人还提供所述反馈以改进所生成的答案。他们可以引导模型找到他们想要的答案，而不是要求公司承担一批人力来确保即时正确性。

适用于广泛的市场
生成的人工智能模型非常通用，已经被应用于各种各样的大型市场。这包括图像、视频、音乐、游戏和聊天。仅游戏和电影产业就价值超过3000亿美元。此外，LLM确实理解自然语言，因此正作为程序的新消费层被推向服务。我们还看到专业配对互动领域被广泛采用，如治疗、法律、教育、编程和辅导。

尽管如此，现有的市场只是价值的证明点，也许只是生成性人工智能的启动点。从历史上看，当经济和能力发生巨大变化时，就像互联网一样，我们看到了全新的行为和市场的出现，这些行为和市场既不可能预测，也比以前大得多。

在高价值任务方面远胜于人类
从历史上看，人工智能的许多工作都集中在复制对人类来说很容易的任务上，比如物体识别或在物理世界中导航——本质上是涉及感知的事情。然而，这些任务对人类来说很容易，因为大脑已经进化了数亿年，专门为它们进行优化（采摘浆果、躲避狮子等）。因此，正如我们上面所讨论的，让经济学相对于人类来说很难发挥作用。

另一方面，生成型人工智能实现了自然语言处理和内容创建的自动化——人类大脑在进化过程中花费的时间要少得多（可以说不到10万年）。生成型人工智能已经可以比人类更便宜、更快、甚至在某些情况下更好地执行许多数量级的任务。因为这些基于语言或“创造性”的任务对人类来说更难，而且往往需要更复杂的工作，所以这些白领工作（例如程序员、律师和治疗师）往往要求更高的工资。
因此，尽管美国的农业工人平均每小时收入为15美元，但担任上述职位的白领每小时的工资为数百美元。然而，虽然我们还没有具备经济地采摘草莓所需的精细运动技能的机器人，但当我们分解生成性人工智能可以以很小的成本和时间与这些高价值工人类似的成本时，你就会看到。

各种新用户行为
随着人工智能浪潮的兴起，新的用户行为与经济学一样令人震惊。LLM已经成为软件开发合作伙伴、头脑风暴伙伴、教育工作者、生活教练、朋友，当然还有爱人。大型图像模型已经成为新社区的核心，这些社区完全围绕着创造新奇的新内容，或者开发人工智能艺术疗法来帮助治疗心理健康问题等用例而建立。到目前为止，这些都是计算机无法实现的功能，所以我们并不真正了解这种行为会导致什么，也不知道什么是实现这些功能的最佳产品。这一切都意味着新兴的私人生成型人工智能公司的机会。

尽管这种新行为的用例仍在出现或创建中，但用户——至关重要的是——已经表现出了付费的意愿。除了上述用户增长外，许多新的生成型人工智能公司还显示出巨大的收入增长。ChatGPT的用户估计表明，仅美国用户的年运营率收入就接近5亿美元。除了ChatGPT之外，多个行业的公司（包括法律、文案、图像生成和人工智能陪伴等）都取得了令人印象深刻的快速收入规模，第一年的运营收入就高达数亿。对于少数拥有和培训自己模型的公司来说，除了推理成本（即为客户服务的可变成本）之外，这种收入增长甚至超过了繁重的培训成本。因此，这就创建了已经或即将自我维持的公司。

正如100万用户的时间被缩短一样，许多人工智能公司达到1000多万美元运行率收入所需的时间也被缩短了，这通常是实现产品市场适应性的筹款标志。

让我们计算一下数字
作为一个激励性的例子，让我们看看创建图像的简单任务。目前，这些模型产生的图像质量与人类艺术家和平面设计师产生的图像品质不相上下，我们正在接近写实主义。截至本文撰写之时，使用大型图像模型创建图像的计算成本约为0.001美元，大约需要1秒。与设计师或摄影师一起完成类似的任务将花费数百美元（最低）和数小时或数天（考虑到工作时间和日程安排）。即使为了简单起见，我们低估了100美元的成本和1小时的时间，生成人工智能也比人类的替代品便宜10万倍，快3600倍。

类似的分析可以应用于许多其他任务。例如，LLM在复杂的法律简报中总结和回答问题的费用是零头一便士，而律师通常每小时收费数百美元（最高可达数千美元），需要数小时或数天。LLM治疗师的费用也将是每节课几便士。等等

受人工智能经济影响的职业和行业远远超出了上面列出的几个例子。我们预计，生成性人工智能的经济价值将对从语言教育到商业运营等领域产生变革性和压倒性的影响，这种影响的程度将与该行业的工资中位数呈正相关。这将在现状和人工智能替代方案之间产生更大的成本增量。

当然，LLM实际上必须擅长这些功能才能实现经济价值。对此，证据越来越多：我们每天都在收集更多的生成人工智能在实际任务中有效使用的例子。他们继续以惊人的速度进步，到目前为止，培训成本或产品价格没有出现难以维持的增长。我们并不是说大型模型可以或将取代所有这类工作——目前几乎没有迹象表明这一点——只是它们节省的每一小时工作的经济效益都令人惊叹。
请注意，这些都不是科学的，但如果你勾勒出一个理想化的案例，其中一个模型被用来执行现有的服务，那么这些数字往往比目前的现状便宜3-4个数量级，通常快2-3个数量级。

一个极端的例子是从一个提示创建一个完整的视频游戏。如今，公司为复杂视频游戏的各个方面创建模型——3D模型、声音、纹理、音乐、图像、角色、故事等——而如今创建一款AAA级视频游戏可能需要数亿美元。人工智能模型生成游戏中所需的所有资产的推理成本是几美分或几十美分。这些都是微芯片或互联网层面的经济学。

计算的第三个时代？
那么，我们只是在助长另一个未能实现的炒作泡沫吗？我们不这么认为。就像微芯片将计算的边际成本降至零，互联网将分销的边际成本降为零一样，生成人工智能有望将创造的边际成本降低到零。

有趣的是，微芯片和互联网带来的收益也在3-4个数量级左右。（这些都是粗略的数字，主要是为了说明一点。这是一个非常复杂的话题，但我们想大致了解互联网和微芯片对当前时间和成本的破坏程度。）例如，第一台通用可编程计算机ENIAC的速度是当时任何其他计算机的5000倍，据称可以在30秒内计算出导弹的弹道，而手动计算至少需要30小时。

同样，互联网极大地改变了远距离移动比特的计算方式。一旦有了足够大的互联网带宽，你就可以在几分钟内下载软件，而不是在几天或几周内通过邮件收到，或者开车去当地的Fry’s亲自购买。或者考虑一下发送电子邮件、流媒体视频或基本上使用任何云服务的巨大效率。几十年前，每比特的成本大约是2*10^-10，所以如果你发送1千字节，它比邮票的价格便宜几个数量级。

就我们的美元而言，在生成内容的成本和时间方面，生成人工智能也有类似的前景——从写电子邮件到制作整部电影，无所不包。当然，所有这些都假设人工智能的扩展仍在继续，我们继续看到经济和能力方面的巨大进步。截至本文撰写之时，我们采访的许多专家都认为，我们正处于这项技术的早期阶段，我们很可能在未来几年看到巨大的持续进步。

防御能力呢？
关于人工智能公司的可防御性或缺乏可防御性，有很多事情要做。这是一场重要的对话，事实上，我们已经写过了。但当经济效益与生成型人工智能一样令人信服时，就有足够的速度围绕规模、网络、企业分销长尾、品牌等更传统的防御护城河建立公司。事实上，我们已经看到，在模型创作者和模型用户之间的双边市场以及创意内容周围的社区周围，生成性人工智能空间出现了看似合理的商业模式。

因此，尽管科技行业似乎没有明显的防御能力（如果有什么不同的话，那就是看起来仍然存在反常的规模经济），但我们不认为这会阻碍即将到来的市场转变。
总的来说，我们相信创造边际价值的下降将极大地推动需求。事实上，从历史上看，杰文斯悖论一直被证明是正确的：当具有弹性需求的商品（如计算或分配）的边际成本下降时，需求增加的不仅仅是补偿。其结果是更多的就业机会，更多的经济扩张，为消费者提供更好的商品。微芯片和互联网就是这样，生成型人工智能也会如此。