对话 Nexa AI：两位斯坦福95后，做出比GPT-4o快4倍的小模型，直指“端侧版Hugging Face”

news2年前 (2024)发布曾哥的AI世界

313 0 0

比OpenAI最强的GPT-4o更快，函数调用能力与GPT-4相当，同时比它小N倍，且只需要一张卡来做推理。

这是Nexa AI亮相时给大家带来的“冲击”。

四个月前，Nexa AI开发的5 亿参数小模型Octopus v2在硅谷AI圈子引发了广泛关注。他们开发的Functional Token技术，能实现比 GPT-4o 快 4 倍、比RAG 解决方案快 140 倍的出色推理速度，同时具备与GPT-4相当的性能，函数调用准确率高达98%以上。

上线Product Hunt当天，Octopus v2就荣获“No.1 Product of the Day”，在Hugging Face发布当月即累积1.2万次下载量。并受到Hugging Face CTO Julien Chaumond、技术负责人Philipp Schmid、Figure AI创始人Brett Adcock等AI界权威人士的一致认证。

对话 Nexa AI：两位斯坦福95后，做出比GPT-4o快4倍的小模型，直指“端侧版Hugging Face”

Nexa AI由两名年轻95后斯坦福校友Alex Chen和Zack Li共同创立，目前共有8名全职员工。斯坦福大学管理科学与工程系教授、科技风险投资项目副主任Charles(Chuck) Eesley，和斯坦福大学NLP小组教授、斯隆研究员Diyi Yang担任公司顾问。

对话 Nexa AI：两位斯坦福95后，做出比GPT-4o快4倍的小模型，直指“端侧版Hugging Face”

据悉，他们已在短时间内成功签下10余家3C电子、汽车、网络安全、时尚消费等领域的头部企业客户。服务超过1000名注册用户，并于前不久完成超千万美元种子轮融资。

在Octopus v2发布后不到一个月，Nexa AI又发布了首个参数量小于10亿却能实现多模态能力的AI模型 Octopus v3。

在保持媲美 GPT-4V 和 GPT-4 的函数调用准确度同时，它可以在树莓派等各种边缘设备上高效运行，支持文本和图像输入，能理解中英文。后续还上新了能在不同领域知识中执行多步查询任务的38亿参数模型Octo-planner等产品。

而接下来，Nexa AI把“野心”延伸到整个端侧模型的市场。

最近它推出了首个端侧AI综合开发平台「Model Hub」。核心是一个专为本地部署设计和优化过的丰富AI模型库。包含自研Octopus系列、Llama 3.1、Gemma 2、Stable Diffusion和Whisper等多种先进模型。适合在各种设备上高效运行，且无需互联网连接和API费用。

搭配模型库，Model Hub还提供了一套全面的开源 SDK，支持开发者将模型部署到本地，并可根据个人需求微调定制，更具灵活性。也有大量实用示例帮用户快速上手，此外还建立了一个开发者社区。

也就是，一个端侧模型的Hugging Face。

“我们真正要打造的是一个on-device版本的Hugging Face。”Alex Chen告诉硅星人。通过整合模型、工具、资源和社区，他们正试图构建一个完整的端侧AI生态系统。

最近硅星人也与Nexa AI的两位联合创始人Alex Chen和Zack Li聊了聊他们对端侧AI的思考。

以下为对话实录：

从斯坦福校园到端侧小模型创业

硅星人：请Alex和Zack跟大家做个自我介绍吧。

Alex Chen：我是Alex，目前是Nexa AI的Co-founder和CEO。创建公司以前我在斯坦福大学读博，做AI和Math相关方面的研究。我和Zack是同济校友，已经认识大概有10年时间了，之前在很多学习和工作中都合作过。比如我俩都担任过斯坦福华人创业者协会的主席，在那段时间做过很多创业想法的实践，但Nexa是我们第一次正式成立一个创业公司去做。

Zack Li：我是Zack，Nexa AI的Co-founder和CTO。我从斯坦福毕业后就在业界工作，先是在 Amazon Lab126做Echo和Alexa，后面去Google做Google Assistant和Google Glass，所以积累了4年业界经验，也是从去年开始和Alex一起做 Nexa AI。因为现在做的方向和Alex的研究、以及我自己过往工作经验都很符合，所以我们不管是在模型训练，还是在客户交付、模型部署上都有比较大的优势。

硅星人：从斯坦福校园到现在创业，特别是选择了端侧小模型方向，是怎样一个过程？

Alex Chen：开始最早萌生创业想法，是因为我们俩都参加了斯坦福华人创业者协会。它比普通学生社团要正式很多，每年都有非常多的斯坦福校友从这个组织里走出去，自己真正做创业。比如真格基金合伙人尹乐，之前的金沙江合伙人张予彤，还有出门问问CEO李志飞、小红书创始人毛文超等等。我们在加入这个组织后，就会日常去认识很多创业者和投资人，也会在湾区举办创业活动。期间了解到创业的全貌大概是什么样子，就开始更倾向于自己去做一些事情。

这是最早的萌芽阶段。随着我们自身技术和创业理解的逐渐加深，就会去做一些side project，也刚好和这一轮生成式AI紧密相关。其实我们很早就注意到生成式AI的一些趋势，比如最早GPT-3出来的时候，Jasper就用GPT-3的API拿到了5千万美元revenue。于是就重点把精力放在生成式AI这一块。最开始的思路偏应用型，意思是先不去管核心技术，就用已有的技术去做一些好产品，比如通过调用GPT-3的API或者Stable Diffusion的一些开源模型直接出产品。

但到后面我们的想法就有些转变了，这里面也包含了为什么选择做端侧AI。

当时我们对整个生成式AI市场做了一个分析。首先现在应用型公司非常多，像email generation、marketing，或者AI interview这样的application，每一个垂类都可能找到大几百个相似的产品。它就变得非常臃肿，可能也不具备长期盈利能力，因为竞争者太多了，也没什么技术壁垒。

这是我们对市场的一个感知，这种非常剧烈的竞争也是促使我们改变路线的主要原因，就希望去看一些更有技术壁垒的工作。加上那个时候Zack已经做过4年 on-devise AI，积累了很深的行业见解。我们就去分析了这个领域，发现当大家追求更大的云端模型时，其实端侧有非常好的机会。

当时考虑了两个趋势：

首先随着算法不断改进，越来越多的大模型功能其实是可以通过小模型去完成的。比如GPT-3最早可能有175B参数，但现在一个7B的最新模型基本可以在很多方面追齐GPT-3。Open AI自己的模型其实也在变小，GPT-3.5据我们所知就比GPT-3要小。这个趋势是算法的精进以及数据挤压进一步完善之后的结果。

其次是端侧算力也在不断提升。比如说随着电脑手机的芯片不断进化，它们可以支持一些体积更大的模型在本地部署，所以这是两个总趋势。

后来我们也做了一些实际调研。今年1月份公司所有人都去拉斯维加斯参加了CES，在CES展上看到非常多本地AI模型部署实例，比如高通就已经在尝试把模型部署在各种各样的端侧芯片上。

硅星人：所以算法精进和算力提升，让你们觉得做小模型是有可能的。又去CES亲自看到了市场态势，最终决定把方向转到端侧AI上面。

Alex Chen：是的。

小模型就能解决99%的问题

硅星人：你们觉得scaling law现在过时了吗？

Alex Chen：Scaling law还没过时，我相信对大部分人来说它还是成立的。

硅星人：那跟大模型比的话，小模型的机会在哪儿？

Alex Chen：我觉得这里问到了一个很好的问题，就是刚才提到scaling law。当我们去评估一个模型scaling law的时候，模型越大，它本身的综合能力肯定越强。但这是一种全方位的能力提升，以MMLU指标为例，大模型可能在MMLU不同的 subject下能力都很强，比如语文、数学、英语。但实际很多情况是，你并不需要它在所有层面都很强，而是只要在特定领域表现突出即可。我们公司会让小模型专注于某些特定领域，比如尤其擅长数学，或尤其擅长法律，这对于数学和法律领域的人来说就已经足够了，他不需要一个特别大的模型去完成他的问题。

另外一个点是当我们用scaling law去不断突破模型边界的时候，其实你要解决的那剩下1%特别难的问题，在日常生活中不一定会全部遇到。比如说我用万亿参数的GPT-4去回答“1+1=2”，这个问题用GPT-2就能回答得很好了，而它俩之间的参数可能相差几千到1万倍。同样的答案可以用两个截然相反的模型，那么小模型就会在速度和耗电上明显优于大模型。

总结来讲，我觉得小模型的优势是什么？首先它速度更快、更省电。与此同时，它部署在端侧基本上是完全免费的状态，因为用本地算力就可以满足。更重要的是它可以完全保证个人隐私。比如我们有一个很大的软件客户，他们的App是帮助人们处理一些ID card，包括身份证、驾照等图片信息。这种东西就没法通过云端API去做，因为涉及隐私，就必须用本地模型去实现这个过程。

硅星人：怎样才算一个好用的小模型？

Alex Chen：第一要速度快，第二要能在一些用户关心的领域和大模型相媲美，第三是能完全、轻松地部署在本地，既能保证隐私成本也非常低。

Functional Token解决小模型函数调用问题，“打败”GPT-4o

硅星人：目前NEXA整个产品框架是什么样的？

Zack Li：我来解答一下这个问题。首先我们的客户有developer和大的enterprise。对于enterprise客户，我们提供的是一个端到端的解决方案。比如以一家电商公司为例，他们给出的明确需求是，针对潜在商业合作的网红去自动化邮件的发布。那么我们的模型就可以满足这个需求，并且通过配套SDK帮他们部署，然后给到一个可以使用的产品，加入他们的工作流。不过我们的东西很通用，所以要做的定制化是比较少的。

针对developer的话，他们可以去我们的 Model Hub里找到他们想要的模型，比如针对电商场景或旅游场景的，然后通过我们的SDK去本地运行。我们除了支持Octopus，也支持一些比较经典和标准的开源端侧模型，譬如Gemma系列、Phi系列等等。

Alex Chen：我们的适用场景就是刚才提到的，大模型目前还无法解决的那1%特别难问题以外的所有问题。比如说情感陪伴、帮你去写email、润色文章等，这些都可以通过一个部署在你本地的小模型完成。所有从难度系数上来说没那么高、但基本能满足大家日常生活的语言模型use case，都是我们这个产品可以赋予大家去使用的东西。

除此之外我们能提供的强大功能点，也就是Octopus模型的最大亮点在于，它有很强的function calling（函数调用）能力。

硅星人：这也是接下来想问的，NEXA 的核心技术优势是什么？

Alex Chen：对，我们的独特之处就是可以用一个本地部署的很小模型，去和很大模型的function calling相媲美。它能把用户的自然语言转换成可执行的命令。比如说你想去Amazon买一款三星手机，直接在对话框里面输入购买需求，它就会自动打开Amazon，并且输入三星手机的描述，帮你节省大量图形操作界面流程。相当于Octopus可以把很多图形操作交互转换成自然语言交互。

硅星人：你们论文中提出了一个创新的Functional Token概念，能解释一下吗？以及它是如何优化AI推理过程的？

Zack Li：过去的方法，比如基于RAG（检索增强生成）技术，一个问题进来时，需要先从API文档或数据库中检索相关信息，然后把这些信息作为上下文提供给大模型进行决策。这个过程首先检索信息耗时，需要处理大量语义token。由于上下文窗口过长，导致推理时间非常漫长，尤其是在算力和尺寸有限的设备端，模型准确性和响应速度受到限制。

我们的解决方案是通过一个端到端的模型直接输出。首次引入了Functional Token（功能令牌）的概念，用1个token来表征整个函数信息，包括函数名、参数和文档，把上下文长度减少了 95%。当用户输入自然语言指令时，系统能省去繁杂的检索步骤，迅速识别任务关键点，触发相应的Functional Token，从而直接生成所需输出或执行特定的函数调用。

在输出层，由于Functional Token代替了完整的函数表述，使得输出基本都能控制在10个token以内，因此更为简洁。这样做能显著节省计算资源和上下文空间，同时大幅提升处理速度。特别适用于移动设备或边缘计算设备，这些需要快速响应的场景。

对话 Nexa AI：两位斯坦福95后，做出比GPT-4o快4倍的小模型，直指“端侧版Hugging Face”

硅星人：实际验证下来表现如何？

Zack Li：像GPT-4o是一个非常大的trillion级别参数量模型，用多个 GPU Cluster来做推理，但我们只是用单卡A100去做比较。即使是在这种极其不公平的硬件条件下，我们的Octopus v2模型依然比GPT-4o快4倍。

硅星人：Octopus v2当时在X反响挺强烈。我看到你们还有Octo-net, Octopus v3和Octo-planner，这些模型是各有所长还是一系列迭代？

Zack Li：v2、v3到planner是一系列迭代，其中v3有了多模态能力，planner有了多步规划能力。Octo-net相当于一个分支，支持端云协同。

硅星人：你们最先进的一款模型能力现在到什么程度？

Zach Li：我们的v3模型是目前对enterprise最新的，能够在1B参数以下支持多模态。可能国内外都有一些优秀的端侧公司逐渐出现，但目前还没有1B以下做到多模态，并且能达到我们function calling准确度的竞争对手，2B以下目前也还没看到。

做一个“端侧版本的Hugging Face”

硅星人：其实除了创业公司，很多像OpenAI、Google、Meta之类的巨头也开始去卷小模型了，你们会有威胁感吗？

Zack Li：当然能感觉到竞争是很激烈的。但首先我们抓住一个利器，就是端测模型里最难的function call这件事。同时还能不断结合Model Hub去鼓励更多开发者加入我们，相当于走Hugging Face路线。所以即使现在端侧模型已经逐渐开始内卷了，我们做好模型，同时也做好平台，让更多的开发者去使用这些模型，这就是我们的一个differentiation。

Alex Chen：其实我们真正要打造的是一个on-device版本的Hugging Face。Hugging Face是一个给云端开发者提供的AI研究社区，它有非常多基于Python还有英伟达GPU的模型搜寻和使用框架，但这些都是为服务器端的开发者提供的。我们的不同之处是要让模型部署在本地，那么这些模型的文件格式、部署所需要的软件支持都是不一样的，比如Hugging Face用Python，我们就是C或者C++，这些是核心差异。

你看到我们会有一些软件库比如SDK，有自己开发的Octopus模型，还会支持像微软、Google的一些其它小模型在本地部署。我们是这么考虑整件事情的：其实你去看云端的话，两个典型比较有价值的公司是OpenAI和Hugging Face。我们其实就像一个端侧的 OpenAI和Hugging Face结合体。一方面我们自己在做端测模型，另一方面也希望通过这个平台进一步帮助大家去使用端侧模型。

所以我们将来的商业模式，更多是通过维护这种on-device AI community，去给一些on-device developer提供基于订阅的收入，另外就是针对这些开发者背后enterprise做一些企业服务。

硅星人：就是在你们平台我不仅能用到Octopus，还可以看到许多个体developer或公司发布的端侧AI。

Zack Li：是的。平台积累我们才刚开始，5月试水了一下，大概有1000多个developer，之后就在不断内部打磨，为正式上线做准备。我们也希望向更多人介绍这个产品，提供测试链接看看大家的反馈。

正式上线的Model Hub会成为NEXA AI的主网站页面。主要产品是一个可以让你找到所需端侧模型的平台。之前那些research work可以展示我们的自主研发能力，也有to enterprise的入口。

Model Hub里可以看到各家公司的端测模型。因为我们比较懂端侧，所以专注于端侧常用的GGUF、ONNX这些格式。比如Meta Llama3.1-8b，我们能quantize成不同精度，像int4、int8。这种压缩过的模型专门适用于端侧运行，不像Pytorch、Python在云端环境下运行。

对话 Nexa AI：两位斯坦福95后，做出比GPT-4o快4倍的小模型，直指“端侧版Hugging Face”

消费级GPU的RAM最多24G，开发者不可能在本地运行原尺寸模型。我们可以帮发布者去做批量的压缩量化。然后我们还有 SDK工具，可以让用户轻松在自己笔记本电脑或手机上使用各种模态的模型，也提供UI展示，完全靠本地算力并且速度很快。

就像Hugging Face，它火是火在有 transformers包。你不光能在这里找模型，还能运行，然后再做二次开发。这才是它能留住用户的核心，对不对？我们其实就是把这个东西给做出来了。

创业就是要靠产品说话

硅星人：下一个问题可能前面也聊到了。现在投资人都会问why you，那对你们自己来说，让目标客户选择NEXA而不是别家竞争对手，这个自信的点是什么？

Zack Li：自信的点第一个是模型优势，我们模型的function calling准确度非常高，同时尺寸很轻。第二个是部署优势，我们可以针对用户不同的硬件需求、操作平台、内存和开销去定制化不同的加速方案。也就是我们不光模型比别人好，还有框架可以支持他们去更好地部署这个模型。

硅星人：这些优势在面对OpenAI或Google时成立吗？

Zack Li：我觉得OpenAI很长一段时间不会直接去触碰端测模型这个领域，它的GPT-4o mini依然是一个云端模型。Google有可能去做，当然Google有人才和设备优势，还有自己的生态。但你很难想象它会去顾及安卓生态之外，尤其在端侧硬件这一块，除了他自己Pixel生态之外的客户，更不会去做像Model Hub这样的事情。

硅星人：可否分享一下最新产品进展和接下来的优化方向？

Zack Li：除了前面说的 Model Hub和 SDK，我们后续还有一系列的 research work，支持长文本处理的压缩模型也正在开发中。后续我们会做好不同场景的服务，其实端侧有很多场景，function call是一个场景，还有其它像question answering能力、多模态能力比如图理解、音频处理等等，这些方向都是会重点关注的。

硅星人：作为一家端侧AI初创公司，你们的挑战来自哪些方面？

Zack Li：包括但不限于一些大厂吧。他们可以去做自己的端模型，尤其具备trillion级大模型开发能力的话，就可以复用很多经验，通过蒸馏或剪枝这样的方式。但我们在做端模型这件事上是有自己独特insights以及对这个领域的理解的，所以我觉得各有千秋。

再就是现有已有的一些社区player。Hugging Face就是一个很好的例子，它要做端测的话对我们也会是一个挑战。但目前看来，Hugging Face的整个生态，包括过去所有架构都是云架构，服务也都是云服务。所以我觉得它要做转型必然是会比较痛苦的。如果当一个project去做，它的momentum和速度也不会那么快。

硅星人：你们把端侧模型和社区结合在一起，布局市场是比较早的。有没有做一些线下开发者活动推广？

Zack Li：我和Alex现在需要做大量的模型开发训练和一些infra相关工作，活动由我们产品和marketing 同学负责，包括这些年在湾区也积累了很多资源。8月25号Nexa要和 Hugging Face、StartX、Stanford Research Park 、Groq、AgentOps在斯坦福联合举办一场Hackathon，是我们第一次做线下，欢迎来看看。

对话 Nexa AI：两位斯坦福95后，做出比GPT-4o快4倍的小模型，直指“端侧版Hugging Face”

Nexa AI主办的Super AI Agent Hackathon现场。图源：NEXA AI

硅星人：最后两个小问题，在硅谷这么多年，有没有很欣赏的公司或人？

Zack Li：我还是比较喜欢Elon Musk。他有一句话是“Tough and Calm” ，就是对事情要求高，并且能在巨大困难面前保持冷静，我自己也在朝这个方向去努力提高自己吧。然后你想，他能同时handle这么多公司，每家公司在面对不同挑战时又都有一定的方法去解决。我觉得他有很长远的视野和很强的执行力。

但如果更接地气一点，其实我更喜欢雷军。因为我自己是湖北人，雷军是湖北仙桃人。他非常勤奋、有亲和力，并且能够hands-on去思考很多问题，身上有很典型的开发者气质。不管作为高管、投资人还是创业者都非常优秀。

硅星人：创业到现在，最大的感触是什么？

Zack Li：我觉得创业这件事情还是产品说话。市场会给我最公正公平的反馈，所以get things done是最重要的。要有长远的目标，同时坚持去做难而正确的事情。比如公司最开始的一些工作可能非常偏产品，没有做很多底层创新。直到现在能突然有这么大一个流量和势头，根本原因还是我们在端侧模型底层上的优化，提出了一个前所未有的训练方法，自己发paper申请专利保护。如果没有这些技术，是不可能脱颖而出、取得现在这样影响力的。所谓的套壳公司，我深刻感受到，几乎没有办法杀出重围，除非你在产品上有极强的洞见。

硅星人：那你觉得Perplexity这家公司属于哪种？

Zack Li：它就是在产品上有极强的洞见。

*Nexa AI的最新端侧AI模型社区Mobile Hub已于8月22日上线官网，直达链接：https://www.nexaai.com/models。

本文来自微信公众号“硅星人Pro”，作者：Jessica，aigpt6经授权发布。

# news