怎样去衡量一款AI产品是否成功?
这个问题如果放在两年前,很多人给出的答案会集中在AI的狭义领域,AlphaGo、Siri、Google Assistant,或是用于解锁手机的图像识别技术,能够在某个特定的领域完成特定的任务。
但从2023年开始,也就是ChatGPT火了之后,人们对AI的看法发生了一些转变,学习、适应、推理的自主决策的能力,不免让人产生AGI会成为现实的错觉。
所以我们能看到,在ChatGPT发布后的不到两年里,国内就上线了数百个大模型,里面既有互联网大公司,也有各种垂类公司,还有一批跑在风口上的初创企业。
毫无疑问,AI大模型的研发需要投入大量的资金和人才,这也导致了绝大部分初创公司的估值被严重透支,他们在短期内获得了大量融资,后续却无法持续烧钱维持迭代和商业落地,随着投资人信心下降,不免有一些机构选择清仓或撤资。
大浪淘沙,伴随无休止的套壳和再生的游戏,当下市面上能够接触到的模型主要分为两类。一是基础通用大模型,比如文心一言、通义千问、元宝这类大厂产品,它们应用场景广泛,功能包括但不限于文本生成、语言理解、问答系统、摘要提取、机器翻译等。某种程度上,它们可以作为下游任务的基础模型,通过微调或迁移学习,适应不同的应用场景和需求。
其次是行业专用,各类细分赛道的产出,像金山的政务大模型,多家公司的医疗、金融等大模型,应用场景主要集中在各自的专业领域内。例如,医疗大模型可以应用于电子病历分析、疾病预测、药物研发等多个环节;金融大模型则可以应用于风险评估、投资策略制定、客户画像构建等多个方面。
如果仅从数字上看,国产大模型在技术上的确成长很快,根据SuperCLUE的评测结果,国内绝大部分闭源模型已超过GPT-3.5Turbo。但事实上,这样的比较意义并不大,大模型虽然多,技术代差也在缩小,但商业化、差异化但效果并不明显,以至于大多数投资人回归到观望的态度。
前段时间圈子里比较热的几个话题,Kimi母公司月之暗面在2C业务之外,官宣了Kimi企业级API的正式发布,比通用模型有更高等级的数据安全保障和并发速率;智谱AI发布“Z计划”,开始、转型投资人的身份。
纵观五虎里剩下的百川智能、零一万物、MiniMax三家公司,推出的产品也很难打出真正的差异化,C端主要提升听说读写技能,产业端则作为私有数据平台和简化复杂需求的工具。一股劲儿地都在钻技术,较量百万,顶多千万级的日活,但市场一直缺乏能够承载AI的杀手级应用。
这样一来,逐渐聚焦于一个关键议题:尽管我们不断追求更大的数据量、更强的计算能力以及更复杂的模型训练,以期构建出更加智能的大模型,但这一过程中往往忽视了一个至关重要的前提:这些高级模型的有效运用与推进,离不开专业人员的深度参与和专业方法的精准实施。
当我们试图将这些大模型直接应用于具体场景,如新闻资讯平台或金融领域时,面临的挑战便显现出来。比如在面对如抖音、快手等已高度优化用户画像的平台时,大模型似乎并未能带来显著的变革性影响。这并非因为大模型本身不具备潜力,而是其在实际应用中的定制化与精准化需求远未被充分满足。
进一步来讲,如果将大模型应用于传统制造业或低门槛工作领域,同样面临严峻挑战。
过去人们以为,通过大模型的指导,即便是非专业人士也能轻松胜任高技能要求的岗位。然而,现实却远非如此。社会的工作分工与评价体系依然根深蒂固,强调经验积累与行业专业性。这意味着,仅凭大模型的短期培训,很难让一个普通人迅速跨越行业门槛,达到专业水准。
一个无法忽视的问题是,不同企业、不同业务应当如何设定合理且科学的增长标准,以及在缺乏直接参照对象时,如何衡量并规划业务的未来增长。
在观察当前市场上的AI大模型产品时,起初,这些技术可能凭借其新颖性和创新性吸引了大量关注,但随着技术的成熟和市场的饱和,增长动力逐渐减弱。
事实上,许多高估值的产品往往是在某个小众领域进行了深度挖掘和创新。这些问题极具普遍性,横跨了不同企业和业务领域,例如,拼多多通过重塑电商体验,为消费者带来了全新的购物感受;京东则凭借其强大的物流体系,构建了难以复制的供应链壁垒。
对于当前的大模型技术而言,发展方向应当更加注重用户体验和市场需求的结合。当这些技术被嵌入到如WPS这样的办公软件,或是美团这样的服务平台中时,核心问题在于,如何让AI技术更好地服务于用户需求,而不是仅仅停留在表面或浅层次的分析上。
举个例子,用户让AI软件猜测自己想吃什么,它们的确会通过语义分析来理解用户的意图,并给出一些建议或推荐。然而,这些推荐往往停留在较为宽泛的层面,没有真正深入到用户的个性化需求中。
换句话说,因为当前的AI技术还难以完全理解用户的复杂情感和具体需求,只能基于已有的数据和模型进行大致的预测和推荐;另一方面,让AI猜测人的已有目的,这件事本身就很浪费时间和技术资源。
再以翻译为例,假设我们已经能够将翻译精度提升到99%,而市场上的需求仅需要95.6%的准确度。这时,再花费大量资源去将精度从99%提升至99.5%,是否真的有意义?尤其是当这种提升对于大多数用户来说,并无显著差别时。
这里的核心问题是,从商业角度来审视技术的ROI(投资回报率)和ROE(净资产收益率)。在一个技术概念成为风口时,往往过分强调技术的先进性,而忽略了其在实际应用中的价值和可持续性。真正的挑战在于,如何将技术转化为实际的生产力,解决用户的真实需求,而不是简单地堆砌技术。
然而,能看到的却是大量公司在盲目跟风,试图通过增加数据量、提升算力等手段来打造所谓的“大模型”。但这种做法往往忽略了客户成功(CSM)的重要性,如何确保技术能够真正满足客户需求,为客户创造价值?
更为严重的是,许多公司并没有清晰的业务规划和阶段性目标,像无头苍蝇一样四处乱撞,结果往往是资源浪费和失败。大模型公司应该更加聚焦于实际场景的应用和落地,而不是仅仅停留在技术层面的自嗨,这样的认知应该早已共识,只不过问题尚未解决,市场也难有突破性的故事。
本文来自微信公众号“新眸”(ID:xinmouls),作者:鹿尧,36氪经授权发布。