微软炸裂级单图生数字人，Sora同款思路，网友：“比AI刘强东还真”

时间：2026-01-06 11:26:21

最佳回答

微软发布一张图生成数字人技术VASA-1，该技术具有以下特点：生成效果逼真：上传一张人脸图片和一段音频，无需针对特定人物训练，即可生成以假乱真的数字人视频，能让蒙娜丽莎唱Rap、素描人像念台词等。同步与表情自然：唇形与语音精准同步：在定量评估中达到顶尖水平。丰富自然的面部表情：眉毛、眼神、微表情等协调运动，避免呆板。人性化的头部动作：说话时适当的点头、摇头、歪头等动作，让人物更鲜活、有说服力。推理速度实时：生成512x512分辨率的视频，使用一块英伟达RTX4090显卡就能跑到40fps。技术思路先进：与Sora思路相似：不是直接生成视频帧，而是在潜空间中生成动作编码，再还原成视频，模型架构选择Diffusion Transformer，与Sora核心组件一致。3大关键技术：人脸潜编码学习：从大量真实说话视频中学习理想人脸特征空间，将身份、外观、表情、姿态等因素在隐空间里剥离开，同一个动作能驱动不同的脸。头部运动生成模型：把所有面部动态统一编码，用Diffution Transfromer模型建模其概率分布，能生成更协调自然的整体动作，借助transformer强大的时序建模能力学习长时依赖。高效率推理：对扩散模型的推理过程进行大量优化，还允许用户输入一些可选的控制信号，如人物的视线方向、情绪基调等，提升可控性。引发的问题与担忧：AI造假成本降低：用AI伪造音频视频诈骗的例子屡见不鲜，2个多月前还有假冒公司CFO开视频会议骗走1.8个亿的案件发生。VASA-1技术可能被滥用于模仿人类，生成误导性或有害内容。微软的声明与措施：微软团队表示研究重点是为数字人生成视觉情感，旨在实现积极应用，无意创建用于误导或欺骗的内容，但可能被滥用。目前VASA-1只发布了论文，短时间内不会发布Demo或开源代码。该方法生成的视频仍有可识别的痕迹，与真实视频有差距，演示视频存在牙齿偶尔变形、眼神不够丰富等瑕疵。未来展望：以AIGC的发展速度，修复这些瑕疵可能不用很久，人们需保持警惕分辨视频真假，默认不相信任何视频成为很多人的选择。但正如网友总结，无法撤销已经完成的发明，只能拥抱未来。

时间：2026-01-06 11:26:29

本类最有帮助

网问答为提供知识和解答各类疑难的平台,目标是做到有问必答解决您遇到的各类问题.本站内容均为网友发表,并不代表本站立场!

投诉邮箱：