网问答>>微软炸裂级单图生数字人,Sora同款思路,网友:“比AI刘强东还真”
问题
已解决

微软炸裂级单图生数字人,Sora同款思路,网友:“比AI刘强东还真”

时间:2026-01-06 11:26:21
微软炸裂级单图生数字人,Sora同款思路,网友:“比AI刘强东还真”
最佳回答
微软发布一张图生成数字人技术VASA-1,该技术具有以下特点:生成效果逼真:上传一张人脸图片和一段音频,无需针对特定人物训练,即可生成以假乱真的数字人视频,能让蒙娜丽莎唱Rap、素描人像念台词等。同步与表情自然:唇形与语音精准同步:在定量评估中达到顶尖水平。丰富自然的面部表情:眉毛、眼神、微表情等协调运动,避免呆板。人性化的头部动作:说话时适当的点头、摇头、歪头等动作,让人物更鲜活、有说服力。推理速度实时:生成512x512分辨率的视频,使用一块英伟达RTX4090显卡就能跑到40fps。技术思路先进:与Sora思路相似:不是直接生成视频帧,而是在潜空间中生成动作编码,再还原成视频,模型架构选择Diffusion Transformer,与Sora核心组件一致。3大关键技术:人脸潜编码学习:从大量真实说话视频中学习理想人脸特征空间,将身份、外观、表情、姿态等因素在隐空间里剥离开,同一个动作能驱动不同的脸。头部运动生成模型:把所有面部动态统一编码,用Diffution Transfromer模型建模其概率分布,能生成更协调自然的整体动作,借助transformer强大的时序建模能力学习长时依赖。高效率推理:对扩散模型的推理过程进行大量优化,还允许用户输入一些可选的控制信号,如人物的视线方向、情绪基调等,提升可控性。引发的问题与担忧:AI造假成本降低:用AI伪造音频视频诈骗的例子屡见不鲜,2个多月前还有假冒公司CFO开视频会议骗走1.8个亿的案件发生。VASA-1技术可能被滥用于模仿人类,生成误导性或有害内容。微软的声明与措施:微软团队表示研究重点是为数字人生成视觉情感,旨在实现积极应用,无意创建用于误导或欺骗的内容,但可能被滥用。目前VASA-1只发布了论文,短时间内不会发布Demo或开源代码。该方法生成的视频仍有可识别的痕迹,与真实视频有差距,演示视频存在牙齿偶尔变形、眼神不够丰富等瑕疵。未来展望:以AIGC的发展速度,修复这些瑕疵可能不用很久,人们需保持警惕分辨视频真假,默认不相信任何视频成为很多人的选择。但正如网友总结,无法撤销已经完成的发明,只能拥抱未来。
时间:2026-01-06 11:26:29
本类最有帮助
Copyright © 2008-2013 www.wangwenda.com All rights reserved.冀ICP备12000710号-1
投诉邮箱: