“如果说今天有什么事是我们一定要做的,那就是AI For Science。难以想象今天还有什么事情比它更重要,今年诺贝尔奖的颁布便是最好证明。”
11月22日召开的2024年IDEA大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在题为《从技术突破到产业融合》的主题演讲中指出,在技术大爆发时期开展创新,对技术的深度理解尤为重要。
沈向洋表示,从长远的人类社会发展角度来看,巨大跃迁都是由技术创新带来的。工业时代的全球GDP年均增速约为1%-2%,信息时代在3%-4%,人工智能时代,这个数字会是多少?与此同时,他强调,随着AI的各项能力逼近、甚至超越人类,AI治理已成亟待全球共同面对的议题。
站在商业的视角,新技术快速冲入市场,则意味着技术需要理解需求。技术要在持续不断的反馈和创新中,与市场完成匹配(Technology-market fit,TMF)。IDEA研究院的实践,正是这样一个缩影。本次大会,IDEA公布一系列前沿研究与产业落地成果,带来从技术突破到产业融合的AI盛宴。
以“得语言者得天下”等理念为核心,沈向洋透露,目前已拥有7个研究中心、450名员工的IDEA研究院在与员工双向选择的过程中,尤为强调科学家头脑、企业家素质和创业者精神三大特质。
深圳或将成全球算力中心之一
“过去这几年人工智能的蓬勃发展,令大家对整个行业充满着期待。其中,算力、算法、数据是绕不开的‘三件套’。”现场,沈向洋分享了对上述三要素的新理解。
首先,算力是关键生产力。过去四五十年间,计算行业的发展中,最重要的一件事情是算力的不断提升。在摩尔定律的基础上,人工智能的发展尤其是深度学习令算力需求迅速提升。过去几年,每年的新模型所需算力大约四倍多的增长。
一个值得注意的趋势是,未来深圳的算力可能会成为全世界唯二的其中一个。
“一年涨四倍,十年会涨多少倍?不同于摩尔定律,最近大家开始提到黄氏定律,以训练模型对算力的需求为主。”沈向洋坦言,例如,过去十年大模型训练对算力的实际需求上涨了100万倍。这也解释了为什么过去十年英伟达的市值涨了300倍。
“今天你如果能拿得到英伟达的卡,就成功了一半。不管从哪个角度看,英伟达就是Apple,硬生生把自己从一个硬件芯片乙方公司做成了甲方,这些年的出货量增长巨大,眼下仍旧炙手可热。”
沈向洋解释道,进入2024年,英伟达H100芯片的客户中,微软、谷歌、亚马逊的采购量都非常大,过去这段时间芯片可以说是最重要的事,“因为大模型本身参数量非常多,对训练对要求会逐步增高,同时数据量也要增加,这对算力的需求几乎是指数级的。“
目前,IDEA大约有一千多张卡,“在深圳也是一个小土豪了“。沈向洋笑道。但是即便如此,”一些新进员工见面还是会问我,能给多少张卡?我开玩笑讲,有些人叫千卡人才,有些人叫百卡人才。如果你真了不起,应该是万卡人才”。
“但未来十年(算力)是否仍旧成百万倍增长,我看得也不是很清楚。”沈向洋坦言,好在自己马上有机会可以当面请教黄仁勋博士。
合成数据将是一个百亿美金机会
其算法层面,从2017年开始Transformer的架构出来,人工智能、深度学习、大模型基本上是沿着Transformer这条线堆数据、堆算力。
“OpenAI非常了不起,推出一些新技术突破的东西。过去几个月国内也有一些公司,包括初创企业在o1这条道路上有很好的进步。”
突破思路在哪里?沈向洋解释道,GPT系列所有的东西都是预训练,做的事情就是预测“下一个token”,里面很重要的技术背景是把所有的数据做非常聪明的压缩。范式变革就是增强学习,自己可以改善的Learning,像人在思考一样,不完全是训练,给出答案还有一个后训练、后推理的过程。
他表示,增强学习不是一件新的东西,今天的新内容在于,其打法是比较通用的,像o1不仅可以做数据,还可以做编程、物理、化学等等。我觉得接下来这几年,算法沿着SRL这条道路会有非常令人惊艳的动作。
数据方面,合成数据将带来一些新机遇。
“我们先看一些关于数据的数据。1万亿Token大约等于500万本书/20万张高清照片/500万篇论文。人类历史的书到现在全部加起来只也有21万亿。一个人念完大学真正学到的东西也就0.00018T”。
沈向洋表示,GPT3大约使用了2万亿Token;GPT4大概用了20万亿。今天互联网上能得到的洗干净的数据大概也是20万亿。个人认为,GPT5需要的数据大约是200万亿的规模。“但互联网上已经找不到那么多数据怎么办?合成数据将作为新特点出现”。
这引申出来另一件很重要的事——互联网上英文数据的重要性。无论训练哪个语言的人工智能,底层高质量的数据都是英文的,人工智能时代英文的重要性可能还会更加增强,就像互联网时代以后,英语是更加变成了主导的语言。
所以,当网上已经没有数据,人工智能向前发展要造数据、合成数据,有可能带来大模型创业下新的百亿美金的问题。
合成数据怎么办?“在IDEA研究院郭健院长带领下,我们做了高质量训练数据的项目,可以给这些大模型不断的提供养分做这样的事情。”沈向洋透露,IDEA使用的方法是先为原始数据建一个语境图谱,厘清其中逻辑,然后合成。同时兼顾私域数据安全孤岛问题,比如通过合成数据加密的方式将私域数据用起来。
基于上述两个维度,IDEA Data Maker诞生。目前,IDEA Data Maker已经有API,并能够服务有需求的客户。实验结果显示,IDEA团队的方案能持续为大模型带来能力提升,表现超过目前的最佳实践(SOTA);从token消耗来看,平均节约成本85.7%。
AI For Science是一定要做的事
“互联网时代的产品,喜欢被赋予PMF(产品和市场结合)的思路。但ChatGPT一步跳过了PMF,实现了TMF(技术与市场结合)。沿着这个思路,最近我们有个做得非常好的方向,新的编程语言。”
截至目前,全世界包括小语言、大语言、中语言在内的所有编程语言,几乎没有一个是是中国人发明的创造。“这种现象我们是有机会可以改变的。”沈向洋表示,今天大模型时代会不会出现现象级的语言?事实上已经有一个叫做MoonBit的语言,已经非常像AI时代的编程语言”。
据IDEA研究院洪波介绍,有IDEA推动提交的MoonBit开源1个月后,便收到非常多高质量代码,7月份又开源了Build系统,12月将开放编译器资源,希望社区做大,让更多人参与到MoonBit的开发。
这大模型的探索方面,沈向洋透露, IDEA研究院亦做了自己的大模型,但由于算力方面的限制,没有深入到万亿参数程度。“但我们一直专注这个领域。截至目前,我们已经有包括化学大模型、学术大模型、营销大模型、经济大模型、运筹大模型、投资大模型、视觉大模型等在内的一系列垂直大模型。”
“今天我们一定要干的一件事情,就是AI For Science,难以想象今天还有什么事情比它更重要。”沈向洋强调,拼命推动大模型的技术落地是最重要的。
截至大会前夕,IDEA研究院旗下产品ReadPaper注册用户已达99万,很快将突破100万。该学术大模型中采用更多多模态技术,可以解析论文中的问题。随着AI技术的发展,学术大模型将从L1、L2,发展到 “让天下没有难做的科研”。营销大模型也渐入佳境,能够以一个角色设计为核心进行细粒度的内容生成。
本次大会,IDEA发布了该系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,实现开放世界(Open-world)目标检测。无需用户提示,直接检测万物。团队还推出行业平台架构,通过一个大模型基座,结合通用识别技术结合,让模型不需重新训练,就可边用边学,支撑多种多样的B端应用需求。
谈及这些技术与的模型最后的目的,沈向洋强调,IDEA研究院最重要的不光是创造最新技术,落地同样重要,“我们研究院里有很多项目、很多团队都是在积极的推动技术团队走向孵化市场。其中我非常喜欢的一个例子,也是在工业AI方面的应用,叫做大规模磁驱动柔性运动控制系统平台,非常好地展示了如何在庞大的场景下使用磁驱动技术。”
「大湾区接下来机会非常大」
“多模态里的技术核心,其中一个核心是计算机视觉,以GPT-4v和GPT-4o为代表。但他们实际上它并没有真正理解世界,最后要走向世界模型的,一定是机器人。其中一个很重要的方向是自动驾驶。”
同时,在挖掘具身智能前景的过程中,他表示,IDEA研究院的成果充满希望,而大湾区将具身智能是非常好的机会。因为“要做这件事情,科研机构单打独斗不行,最重要的是要跟企业,特别是龙头企业一起合作”。
现场,IDEA研究院一连宣布三个合作:与腾讯合作,在深圳福田区、河套深港科技创新合作区落地建设福田实验室,聚焦人居环境具身智能技术;与美团合作,探索无人机视觉智能技术;与比亚迪合作,拓展工业化机器人智能应用。
“深圳是一座用迭代软件的速度迭代硬件的城市,只有在大湾区、深圳才有这样的机会。”沈向洋总结道。
大会最后,沈向洋针对低空经济表示,IDEA研究院与深圳市政府共同研究后,提出必须要打造低空智能融合基础设施,具体来讲要建四张网——设施网、航路网、空联网、服务网。
今年8月,IDEA在深圳市低空经济高质量发展大会上发布了SILAS系统先锋版。
本文来自微信公众号 “IPO早知道”(ID:ipozaozhidao),作者:Uncle C,aigpt6经授权发布。