沈向洋，发了一个可以识别万物的大模型

news8个月前发布曾哥的AI世界

79 0 0

作者 | 邓咏仪

编辑 | 苏建勋

“讲卡伤感情，没卡没感情。”

2024年的IDEA大会上，IDEA创院理事长、美国国家工程院外籍院士沈向洋，抛出了一句格外现实又幽默的话。

另一方面，这也展现了他对未来AI时代一种鲜明的乐观情绪。

大模型的发展已经不如ChatGPT发布后那样，经历陡峭增长。进入到人类探索AGI（通用人工智能）的第二年，大语言模型的迭代已经放缓。相应地，AI应用、落地，占据了全球话题的中心。

但沈向洋觉得，虽然GPT-5尚未见身影，但算力的增长还是呈乐观趋势——根据EPOCH AI数据统计，大模型对于算力的需求，每年都是呈现四倍多的增长。

按这样的增长速度，以往按18个月算力涨一倍的摩尔定律也不再奏效。沈向洋重点解释了黄仁勋的“黄氏定律”，以模型训练来衡量算力的增长。若恒定按照一年涨四倍的算力速度增长，十年或许会预见100万倍的算力需求增长。不过这一定律，仍需要时间来检验。

“大模型要往前走，不单是参数扩大、模型规模大了之后，对训练的要求变高了，数据量也要增长。某种意义上来讲，对算力的需求呈跟参数的平方关系，这就是不得了的算力需求。”他说。

沈向洋，发了一个可以识别万物的大模型

沈向洋来源：作者拍摄

“过去这几年大家都讲‘人工智能三件套’，实际上都绕不开‘算力、算法、数据’这三件事情。”在这次大会上，沈向洋穿针引线，花了3个小时围绕“算法、算力、数据”这三个方向，来介绍IDEA的全新进展。

视觉模型仍是IDEA的研究重点——IDEA正式发布的最新通用视觉大模型DINO-X，可以拥有真正的物体级别理解能力。

这意味着，不像普通的视觉模型有训练数据的限制，DINO-X可以实现开放世界（Open-world）实现目标检测——无需用户提示，直接就可以检测所有物体，包括罕见的长尾物体（出现频率低但种类繁多的物体）。

这也会大大拓展模型的落地场景。

比如，“具身智能”是2024年火了一整年的AI行业话题。对于视障人士服务、服务类机器人等高难度场景，以往非常依赖大量的高质量数据标注，耗费巨量人力。但在DINO-X的帮助下，视觉模型可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果，从而降低手工标注的工作量。

沈向洋，发了一个可以识别万物的大模型

来源：IDEA

对传统的视觉模型应用广泛的场景，DINO-X也在自动驾驶、智能安防、工业检测等领域，会成为一个有力的补充，系统能够应对各种复杂场景，识别出传统模型难以检测的物体。

IDEA团队还推出行业平台架构，通过一个大模型基座，结合通用识别技术结合，让模型不需重新训练，就可边用边学，支撑多种多样的B端应用需求。

“用一个模型解决一百万个问题”，是这次模型发布的关键理念。

有别于主流的“全图理解”的方法，IDEA通过在物体级别的理解上加入语言模块，来优化大模型的幻觉问题。结合自研的“视觉提示优化”方法后，无需更改模型结构，不用重新训练模型，也可以实现小样本下的场景化定制。

沈向洋，发了一个可以识别万物的大模型

来源：IDEA研究院

不过，随着模型体量不断变大，高质量数据已经成为桎梏。“现在人工智能的发展，已经耗尽了人类社会的所有高质量数据。”沈向洋表示。

合成数据随之而生。IDEA团队此次也发布了自研的语境图谱技术，解决过往文本数据合成方案的多样性匮乏等问题。该技术相当于是合成数据引入“指导手册”，以图谱为纲，指导用于合成的语境采样。

从实验结果显示，IDEA团队的方案能持续为大模型带来能力提升，表现超过目前的最佳实践（SOTA）；从token消耗来看，平均节约成本85.7%。目前，该技术内测平台已开放，通过API提供服务。

在2024年，IDEA在AI应用落地层面明显提速。相较去年的科研论文阅读平台，今年IDEA公布了更多垂直领域的应用探索。

在预测方面，IDEA研发了多个化学领域专家大模型，在分子属性预测和化学反应预测能力上，都可以达到业界领先水平。

AI模型也可以应用在科研数据上，加快科研数据的处理速度。IDEA新发布的化学文献多模态大模型，就联合晶泰科技发布专利数据挖掘平台PatSight。这一模型将药物领域的专利化合物数据挖掘时间，从数周缩短至1小时。

而今年的一大热门方向——AI编程，正是因为模型智力水平不断提升，而成为下一个热门的应用方向。IDEA研究院的MoonBit团队，就展示了其开发平台的编程模块MoonBit。这个云原生AI编程工具，已具备完备的多后端支持和跨平台能力，可在硬件上直接运行，支持RISC-V架构，并将于12月正式开放。

模型也从软件层面走到硬件层面，更多在现实世界产生效用。

坐落在大湾区IDEA，有着得天独厚的硬件产业基础和优势。这次会议上，IDEA也一连宣布三个合作：与腾讯合作，在深圳福田区、河套深港科技创新合作区落地建设福田实验室，聚焦人居环境具身智能技术；与美团合作，探索无人机视觉智能技术；与比亚迪合作，拓展工业化机器人智能应用。

“低空经济”则是另一个IDEA强调的领域。IDEA不仅发布了《低空经济发展白皮书3.0》，还发起共建OpenSILAS创新联合体，与17家首批发起单位携手，预期打造一个开放共享、技术领先、不断迭代的系统和平台。

2024年，已经是IDEA大会的第四届大会。在这四年中，AI不仅从以CV（视觉识别）为主的1.0时代，跨越到以生成式AI为主的2.0时代，更是带来了AI治理等下一个时代的重要命题。如今的人类社会也许需要更多思考：我们与AI该如何更好地共存？

“AI的发展，能不能从经济最大的增长，转化到人类的最大福祉？这是在座的，在IDEA研究院从事技术研发的同事，以及产业落地的同事，在人工智能发展的道路上必须要去思考的问题。”沈向洋说。

沈向洋，发了一个可以识别万物的大模型

欢迎关注

# news

文章版权归作者所有，未经允许请勿转载。

Pixel 9 重新定义了手机拍照，也带来了一个巨大的隐患

曾哥的AI世界

145 0

风水轮流显挑战，Kimi遭遇信任与商业化双重挑战

曾哥的AI世界

84 0

科技巨头打响语音模型之战，亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

曾哥的AI世界

121 0

AI搜索新贵，开始卖广告位了

曾哥的AI世界

1,876 65

IDEA研究院与腾讯、美团、比亚迪达成具身智能合作｜最前线

曾哥的AI世界

83 0

万字实录：杨植麟、姜大昕、朱军现场激辩，国产AI巨头对o1模型和行业的深度思考

曾哥的AI世界

117 0

暂无评论

暂无评论...

沈向洋，发了一个可以识别万物的大模型

IDEA研究院沈向洋：从PMF到TMF， AI For Science是今天一定要做的事

四元一杯的蜜雪冰城，也来做AI了

相关文章

暂无评论