关闭广告

对话商汤科技首席科学家林达华:生成不等于完成,AI创作的关键是理解人的意图

时代周报2025-07-29 00:00:029428人阅读

本文来源:时代周报 作者:雨辰

在AIGC技术快速迭代的当下,图生视频正在从实验室走进创作室、工作坊和工业一线。

2025世界人工智能大会(WAIC 2025)期间,商汤科技联合创始人、执行董事、首席科学家林达华博士在接受时代周报等媒体采访时,深入剖析了多模态大模型的演进趋势、技术挑战与商汤的战略布局。他强调:“多模态能力是通向通用人工智能(AGI)的必经之路。”

今年5月,CreateAI发布《多模态生成技术在动画制作领域的应用与发展白皮书》,该报告首次以中国动漫电影《哪吒2》为案例,结合权威数据,揭示了AI在激发创意与优化流程方面如何实现“降本增效”。

林达华认为,生成式AI的未来,不应仅仅追求“从文字直接生成图像或视频”的技术炫技,而应聚焦于创作者意图与结果之间的精准对接。“AIGC的终极形态,是一个真正服务创作过程的交互工具。”


商汤科技联合创始人、执行董事、首席科学家林达华博士

时代周报:从技术角度来看,在视频生成过程中,如何实现对空间结构和物理逻辑的有效把控?

林达华:商汤很早就布局了数字人、三维建模等方向,因此在三维空间建构方面积累深厚。在Sora引发关注时,我们也研究了它的视频质量,的确在视觉效果上令人惊艳,但它在物理规律的掌握上存在明显不足——它采用的是基于时间的一帧帧生成逻辑,本质上并不具备三维结构的建模与控制能力。相比之下,商汤内部一直在探索如何将三维结构能力应用于视频合成,让生成视频在空间结构和物理逻辑上都更加真实可控。

这一优势也体现在我们参与的奥运场景应用中。例如在去年奥运会乒乓球等项目中,我们把三维的结构的这种信号,用于控制视频的生成,使得它生成的结果符合物理的结构、物理的规律。成功实现对球拍与球体轨迹的精准还原,为赛事回放与辅助判罚提供了强有力的技术支持。

时代周报:在实际运用中视频生成结果“符合物理逻辑”有多重要?

林达华:这是我们高度重视的关键能力。生成内容不仅要“看起来真实”,更要“逻辑上成立”。例如,商汤的“开悟”世界模型,在某种意义上,也可被视为一种视频生成模型,但它对三维结构生成的准确性和物理性的要求极为严格。若生成的结果不符合物理规律,将其用于驾驶训练,将导致灾难性的后果。所以,相较于一些AI公司追求生成画面越“炫”越好,商汤更强调结果的正确性:我们生成的画面必须符合物理规律、空间逻辑,并具备可解释性。

时代周报:图生视频较文生视频有哪些提升?图生视频具体有哪些典型应用场景?在哪些环节真正能发挥价值?

林达华:相较于文生视频,图生视频显然具备更坚实的依托。以文字为例,若要生成一只在空中飞翔的鸟,单凭文字描述,系统难以构思出丰富的细节。然而,若有一张图片作为基础,生成的结果便会日新月异。例如,要求系统生成“我妈妈微笑的照片”,若系统未曾见过你母亲,又怎能凭空创造?显然,必须有一张实际图像作为参考。因此,我认为真正的个性化生成,不应仅依赖文字描述,而需以真实影像为支撑,方能实现这一可能性。

从图生视频的角度来看,最直接的莫过于C端应用场景。假设你家中存有大量照片,希望让它们“动”起来,这无疑是一个极具吸引力的创意。早期,我的团队开发了AnimateDiff,影响力较大。如今,许多后续的图生视频研究都与AnimateDiff有着千丝万缕的联系。我们注意到,这项于2023年开源的技术,被广泛用于创作各类充满想象力的视频,用户仅需几张照片便能展开创作。

时代周报:图生视频价值在哪里?您怎么看AI和人类创作者的关系?

林达华:我们一直认为,文生视频也好,图生视频也好,都不是生成式AI的终极形态。真正的理想状态,是将创作者的意图与生成过程深度融合,把AI当作一个真正服务创作流程的“工具”。

在我理解,包括我们刚刚发布的视频平台上的Seko AI,它是一个交互式创作工具,我们将视频的制作视为一种创作,而不是仅仅输入一句话后就不管不顾,等待它生成一个结果。这个结果很可能并不符合你的预期,也不一定能直接使用。

真正有价值的是,它能大幅减少你的工作量,同时你仍能对最终的生成内容进行把控。当发现生成内容不合适时,你可以指导它进行修改,掌控生成的脉络,这就是交互式生成的核心所在。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

奥迪官方提前泄露全新纯电概念跑车图片,定位介于 TT 与 R8 之间

IT之家 浏览 0 09-02

深夜暴涨,“超16万人爆仓”

中国基金报 浏览 1 08-23

苹果向下,小米向上

汽车公社 浏览 2173 07-11

机场、港口、基地一一被炸 以方没有料到朱拉尼有外援

科技有趣事 浏览 8093 07-21

泽连斯基:愿在特朗普领导下实现持久和平

都市快报橙柿互动 浏览 2244 03-06

“锂矿双雄”真的雄起了?

木禾投研 浏览 7009 07-21

小红书对着B站“贴脸开大”

经济观察报 浏览 4978 08-11

全新岚图知音预售22万元起 配齐华为全家桶

网易汽车 浏览 1957 08-14

一个没选!CBA选秀大会:辽宁第37顺位也选择弃权

直播吧 浏览 2029 07-26

解锁日本主妇的优雅密码,掌握3个穿搭技巧,让你从容老去

静儿时尚达人 浏览 9087 06-01

宋小宝个人生活遭质疑,粉丝支持态度引讨论

潘鍵旅行浪子 浏览 5735 07-26

从增量市场转向存量市场 车企陆续启动收缩战略

华夏时报 浏览 173 07-18

新华全媒+|来2025世界机器人大会,体验“机”智生活!

新华社 浏览 6620 08-10

记者:亨克的瓦赫迪和皇社的阿兰布鲁可能成为米兰右后卫备选

懂球帝 浏览 8900 07-25

吴孟达去世才4年,50年老友王晶抖落其不堪

墨羽怪谈 浏览 4760 07-26

拒绝捧杀!理想i6即将发布,高管亲自下场辟谣!

电车通 浏览 0 09-02

威格曼率队完成女足欧洲杯三连冠,成历史首位达此成就的教练

懂球帝 浏览 3710 07-28

B费:大多数巴西人都很开朗,库尼亚很快就和大家打成一片了

懂球帝 浏览 1908 07-27

5门7座/Hi4四驱电混 魏牌高山7预售价28.98万起

网易汽车 浏览 1 09-11

GPD MicroPC 2 迷你掌上笔记本新增 N300 版本:核心数量翻倍

IT之家 浏览 3604 08-19

外媒:巴基斯坦确认向沙特提供核保护伞

扬子晚报 浏览 1 09-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2