关闭广告

对话商汤科技首席科学家林达华:生成不等于完成,AI创作的关键是理解人的意图

时代周报2025-07-29 00:00:029440人阅读

本文来源:时代周报 作者:雨辰

在AIGC技术快速迭代的当下,图生视频正在从实验室走进创作室、工作坊和工业一线。

2025世界人工智能大会(WAIC 2025)期间,商汤科技联合创始人、执行董事、首席科学家林达华博士在接受时代周报等媒体采访时,深入剖析了多模态大模型的演进趋势、技术挑战与商汤的战略布局。他强调:“多模态能力是通向通用人工智能(AGI)的必经之路。”

今年5月,CreateAI发布《多模态生成技术在动画制作领域的应用与发展白皮书》,该报告首次以中国动漫电影《哪吒2》为案例,结合权威数据,揭示了AI在激发创意与优化流程方面如何实现“降本增效”。

林达华认为,生成式AI的未来,不应仅仅追求“从文字直接生成图像或视频”的技术炫技,而应聚焦于创作者意图与结果之间的精准对接。“AIGC的终极形态,是一个真正服务创作过程的交互工具。”


商汤科技联合创始人、执行董事、首席科学家林达华博士

时代周报:从技术角度来看,在视频生成过程中,如何实现对空间结构和物理逻辑的有效把控?

林达华:商汤很早就布局了数字人、三维建模等方向,因此在三维空间建构方面积累深厚。在Sora引发关注时,我们也研究了它的视频质量,的确在视觉效果上令人惊艳,但它在物理规律的掌握上存在明显不足——它采用的是基于时间的一帧帧生成逻辑,本质上并不具备三维结构的建模与控制能力。相比之下,商汤内部一直在探索如何将三维结构能力应用于视频合成,让生成视频在空间结构和物理逻辑上都更加真实可控。

这一优势也体现在我们参与的奥运场景应用中。例如在去年奥运会乒乓球等项目中,我们把三维的结构的这种信号,用于控制视频的生成,使得它生成的结果符合物理的结构、物理的规律。成功实现对球拍与球体轨迹的精准还原,为赛事回放与辅助判罚提供了强有力的技术支持。

时代周报:在实际运用中视频生成结果“符合物理逻辑”有多重要?

林达华:这是我们高度重视的关键能力。生成内容不仅要“看起来真实”,更要“逻辑上成立”。例如,商汤的“开悟”世界模型,在某种意义上,也可被视为一种视频生成模型,但它对三维结构生成的准确性和物理性的要求极为严格。若生成的结果不符合物理规律,将其用于驾驶训练,将导致灾难性的后果。所以,相较于一些AI公司追求生成画面越“炫”越好,商汤更强调结果的正确性:我们生成的画面必须符合物理规律、空间逻辑,并具备可解释性。

时代周报:图生视频较文生视频有哪些提升?图生视频具体有哪些典型应用场景?在哪些环节真正能发挥价值?

林达华:相较于文生视频,图生视频显然具备更坚实的依托。以文字为例,若要生成一只在空中飞翔的鸟,单凭文字描述,系统难以构思出丰富的细节。然而,若有一张图片作为基础,生成的结果便会日新月异。例如,要求系统生成“我妈妈微笑的照片”,若系统未曾见过你母亲,又怎能凭空创造?显然,必须有一张实际图像作为参考。因此,我认为真正的个性化生成,不应仅依赖文字描述,而需以真实影像为支撑,方能实现这一可能性。

从图生视频的角度来看,最直接的莫过于C端应用场景。假设你家中存有大量照片,希望让它们“动”起来,这无疑是一个极具吸引力的创意。早期,我的团队开发了AnimateDiff,影响力较大。如今,许多后续的图生视频研究都与AnimateDiff有着千丝万缕的联系。我们注意到,这项于2023年开源的技术,被广泛用于创作各类充满想象力的视频,用户仅需几张照片便能展开创作。

时代周报:图生视频价值在哪里?您怎么看AI和人类创作者的关系?

林达华:我们一直认为,文生视频也好,图生视频也好,都不是生成式AI的终极形态。真正的理想状态,是将创作者的意图与生成过程深度融合,把AI当作一个真正服务创作流程的“工具”。

在我理解,包括我们刚刚发布的视频平台上的Seko AI,它是一个交互式创作工具,我们将视频的制作视为一种创作,而不是仅仅输入一句话后就不管不顾,等待它生成一个结果。这个结果很可能并不符合你的预期,也不一定能直接使用。

真正有价值的是,它能大幅减少你的工作量,同时你仍能对最终的生成内容进行把控。当发现生成内容不合适时,你可以指导它进行修改,掌控生成的脉络,这就是交互式生成的核心所在。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

发布多模态交互开发套件,发力硬件抢占入口!阿里云已兵分两条路布局AI手机

时代财经 浏览 13 01-09

太强了!阿卡今年已获得54胜,夺得6冠&大师赛3冠领跑男子网坛

直播吧 浏览 131 08-19

中日紧张关系升温后 日官员劝渔民:不要去钓鱼岛海域

澎湃新闻 浏览 6 01-29

猛龙7人上双四杀老鹰:巴恩斯18+8+10 杰伦13+14+7+6失误

醉卧浮生 浏览 11 01-06

罗马诺:利物浦准备向16岁的小将恩古莫哈提供一份新合同

懂球帝 浏览 13 08-26

消费者开始退货!始祖鸟又被曝海内外道歉内容不一致

国际金融报 浏览 14 09-22

诺奖得主费林加对话沪上青少年,带你探索生活中的分子

文汇报 浏览 3324 07-21

杨瀚森被评为“最有趣新秀” 对自己的要求是“统治低位”

仰卧撑FTUer 浏览 6597 07-19

普京即将访印之际 印俄敲定价值20亿美元核动力潜艇租赁协议

环球网资讯 浏览 12 12-05

17.98万元起!大平层/云辇-C/无人机 方程豹钛7上市

网易汽车 浏览 14 09-11

Vogue这一夜太抓马了

细语 浏览 18 10-24

WAIC前线|北电数智推星火·大平台 “AI底座”能力首次完整亮相

网易科技报道 浏览 1477 07-28

法媒:国米已启动引进乌迪内斯后卫索勒的交易,但对方要价较高

直播吧 浏览 9376 08-21

曾经最具知名度的播音员病逝 丈夫也是央视知名主持人

环球网 浏览 17 12-16

宜宾纸业因信披违规收警示函,收购醋纤公司未及时披露1.9亿元资金滞留

红星资本局 浏览 8307 07-22

普京:俄罗斯将在战场解放本国故土 欧洲"猪猡"将下台

参考消息 浏览 14 12-19

甩掉包袱 保时捷宣布2026年起逐步关停自建充电网络,转向公共充电矩阵

封面新闻 浏览 10 12-24

2025上海车展观察:智驾"刹车" 合资"加速"

网易汽车 浏览 5636 04-28

黄景瑜将上太空,官宣成为009号太空游客,乘坐中国自制飞船升空

扒虾侃娱 浏览 6 01-23

上交大博士自研3D图形引擎,效率暴增500倍,比亚迪丰田抢着用

创业邦 浏览 17 08-22

国产版绝命毒师要上央视,秦昊恐怖感堪比张东升,段奕宏再演警察

最爱酷影视 浏览 7650 07-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2