AI 最近又成为了一个火热的话题。半年前 ChatGPT 的发布就像晴天霹雳一样震惊了所有人。但半年时间已经过去,ChatGPT 的月活开始下滑,我自己在试用过不少应用后,逐渐收敛到了 Poe,GitHub Copilot 等有限的几个应用上。

正好在出差的路上没有网络,想趁机写一下我对 AI 未来的看法。就像手机和移动网络为移动互联网的发展点燃了火花,要让 AI 真正进入各行各业,我们目前仍然面临一些缺失的要素。到底缺少什么,未来 AI 应用的壁垒在哪里,这些问题有一些非常不成熟的看法,写出来抛砖引玉。

上一代 AI

回顾一下上一代的AI热潮,可以追溯到 12-15 年。其中一个重要的里程碑是 AlexNet 的出现。在 2012 年的 ImageNet 图像识别挑战中,AlexNet 以惊人的准确率击败了传统方法,引起了广泛的关注和兴趣。

但是,上一代的 AI 在落地应用方面面临一些挑战。在 CV(计算机视觉)和音频等领域,AI 需要更多的人工干预和专业知识才能取得良好的效果。与此同时,文本是一个广泛的应用场景,而自然语言处理(NLP)在智能化程度上确实还有提升的空间。尽管在 NLP 领域取得了一些重要进展,如机器翻译、情感分析和文本生成等,但仍然存在理解语义、处理语境和生成自然流畅文本等方面的挑战。

AI 最终在互联网搜索广告推荐中展现出了最佳的效果。这种业务不仅具有盈利能力,还能通过数据形成正反馈的飞轮效应。随着互联网应用获取到更多用户数据,推荐系统可以通过持续的训练和迭代不断提高其效果,从而为用户和广告主提供更好的服务。

而其他领域,很难具备与搜索广告推荐相同的特质。例如,CV场景需要考虑到数据安全和隐私问题,这使得以低成本形成数据和模型的正反馈循环变得困难。

ChatGPT

对比之前,最近的 ChatGPT 之所以能成为人类历史上增长最快的应用之一,并在文本场景中实现智能化,排除模型规模、基于对话的友好交互方式之外,最关键的是 RLHF。模型虽然大,但是如果没有进一步优化和迭代的方法,那么它的能力始终是静态的。而 AI 的想象空间,就是源于这是人工智能,是可以不断学习和优化的。

而反观现在如火如荼的 AI 应用们,确实很少有核心的壁垒。在我看来,这主要是因为不能高效低成本地利用自身获得的数据。我们看了好多 YC 投的 AIGC 应用,大部分都是在使用 ChatGPT 针对某个细分领域,利用自己对行业的理解做产品。但是这样的产品壁垒并不深,完全来自于行业的 know-how,原则上来讲不是一个 AI 公司。

现在做的比较好的应用,Perplexity AI、Midijourney、Runway 等都拥有自己的模型,并能够持续地利用新的数据迭代自己的模型。看这些项目,大部分都已经在利用互联网的规模效应,获得更多的数据,并利用新的数据进一步优化模型,提供更好的服务。已经形成了自己的飞轮效应。而如果只是依靠 claude 或者 ChatGPT 进行产品化,那将是一个非常内卷的游戏。

In-context Learning vs. Fine-tune

那么,为什么只有少数的公司现在可以做到这样?我认为是目前在 NLP 场景下,并不存在一个方法,能够以低成本,利用大量中低质量的数据优化模型。在上一次 AI 热潮中,互联网搜索广告业务成为真正受益的行业,原因在于它能以极低的计算成本利用新的数据来优化模型。比如 TikTok,用户的行为可以被继续通过在线学习或者离线训练,来优化背后的推荐系统。

而未来的 AI 应用在各个细分领域中,壁垒也是在于数据。只有能够高效地利用数据,才能获得商业成功,避免陷入内卷的局面。利用新获得的数据不断优化模型,为用户提供更好的服务,才能在竞争中脱颖而出。因此,高效利用数据将是未来 AI 应用成功的关键。

如何利用数据,目前主要是 in-context learning 和 finetune。先来看 finetune,我认为 finetune 技术在 NLP 领域还不是非常成熟,成本高,效果难调。在图像领域,通过 lora 等方式可以以非常低的成本进行 finetune。并且 base model 是不会变化的,训练得到的 lora patch 可能只有几十 MB。这在部署的时候也会更加方便,base model 部分可以复用,只有 patch 是需要占独立显存的,是可以以很小的成本实现 finetune 和 inference,实现模型的个性化。

然而,自然语言处理领域的情况稍有不同。LLM 规模远大于 CV 领域的 SD 等模型,finetune LLM 的过拟合、灾难性遗忘等问题,都更难解决。现在如果用 qlora 或者其他算法 finetune,都有非常多的工程 trick 要处理,并且由于规模更大,对硬件资源要求很高,几十 A100 卡时已经是相对较小规模的了。

再来看 in-context learning,它的问题主要是现在不知道它的原理是什么,以至于不知道它是否能够成为 LLM 新的主流学习方式。它在未来一定会被使用的越来越多,这一点我很认可。但是它是不是能够在大量的数据下也能够继续表现出很好的效果,还是只能通过少数 trick 取得一个“还不错”的效果,我是有疑惑的。核心还是它是模型规模变大后涌现出来的能力,对它的研究都还很初级。目前 context window 毫无疑问限制了它的水平,并且通过 flash attention 获得的大 window 在工程上会遇到 context 中间部分被遗忘的问题。

综合来看,工业界还缺少高效利用数据迭代模型的能力。我认为这个能力对于 AI 来说就像是 TCP/IP 对互联网的重要性。只有能够利用数据持续优化模型,AI 才是 AI。

设想如果有了这样的“廉价 finetune”的能力,一个一个旅行代理的应用能够利用新的数据不断优化模型,将能够提供更加个性化和优化的用户体验。而 embedding 召回和 prompt engineering 等技术也是非常重要的优化方式,但是它还是在给模型添加”外脑”。通过事先设计好的召回规则和提示工程,可以引导模型生成更准确和有用的回答。但是它很难利用新的数据来迭代和优化。

更远的未来

这些都只是近期我们可以期待的。从更长远的时间来看,Agent 才是 AI 更值得期待的未来。如果说高效利用数据迭代模型的能力是 AI 时代的 TCP/IP,Agent 就是互联网本身。

而且,更值得(我个人)期待的是,它会对 infra 和 developer tools 提出全新的需求。参考互联网的发展,在早期建站对开发者工具的需求非常薄弱,一个站长用 php 加上 mysql 就能把所有的工作做完,一个 hao123 就完成了。但是随着业务的复杂度的提高和对效率的追求,互联网出现了前后端,并且出现了各自的框架。比如前端从 jquery、angular 一直迭代到 vue、react,都是在不断地提高工程师的开发效率。

而 AI 如果进入了 agent 时代,业务的复杂度会有数量级的提升。对工具的需求也会水涨船高,在 AI infra 领域也会像传统 infra 一样,出现更多的细分品类。每一个场景都需要一个好用的工具。

不过,未来什么时候来?不知道呢。

License

  • This article is licensed under CC BY-NC-SA 3.0.
  • Please contact me for commercial use.

评论