上面这句感慨,恐怕许多人都感同身受。只需输入一段文字描述,Sora就能生成一段长达一分钟、画面逼真、稳定连贯的高清视频。由于画面过于真实,人们仅凭肉眼很难辨别它们竟出自AI之手。
不仅能生成视频,AI还能“魔改”视频。最近,小鹏汽车研究团队提出了一个名为“任何物体在任何场景”的新型通用视频模拟框架,它能无缝地将任何物体插入到现有的动态视频中。同样,肉眼难以分辨。
真假难辨之下,慢慢的变多的人开始担心,AI视频可能引发更多混乱。比如视频证据不再可信:“未来也许你不得不坐在法庭被告席上,观看一段连你自己都不知道的‘作案视频’。”
中国科学院自动化研究所研究员董晶研究的就是图像窜改、深度伪造等人工智能内容安全与对抗技术,她和研究团队的许多成果已应用于多媒体智能鉴伪。面对AI越来越强大的功能,技术上有哪些应对的方法和手段?普通公众面对视频内容时如何“多留几个心眼儿”,以防上当受骗?为此,《中国科学报》采访了董晶。
“用魔法打败魔法。”董晶说,目前技术上主要有两类智能检测的新方法来甄别一段视频是否为AI生成。
一种是基于数据学习的方法。这常常要提前收集伪造视频和真实视频(最好是配对数据)作为训练数据集,训练出强大的深度网络。只要模型能够“记住”视频帧中的异常或痕迹,例如图像噪点、帧间不连续的运动轨迹等,就能辨别真伪。
董晶说,这种方法较为通用,一旦检测模型参数确定,部署简单、批量检测效果良好。但是,该方法相当依赖训练数据的体量和完备性,对于未知或未训练的数据检测通常会失效。
另一种是基于特定线索的方法。它第一步是要定义出视频中一些不合常理或逻辑的视觉“线索”,如光照不一致、人脸视频中应有的活体生理信号、说话人的口型和发音时序不匹配等细节,然后设计相应的算法去提取并定位这些线索,进而取证。这种方法可解释性更好,对视频段的定向检测性能佳,但对数据本身的多样性兼容较差。
被小鹏汽车团队“魔改”的视频,就能够正常的使用这种方法鉴别。董晶说,他们团队做了初步分析后发现,在“塞入”目标物体后,视频/图像不同帧的颜色、纹理会略有变化,“可以此为线索,在收集有关数据后进行训练和检测测试”。
不过,董晶谈到,随着Sora等工具在AI生成视频细节与多元化处理方面的能力增强,生成视频中的显式伪造痕迹会慢慢的少,仅依赖传统的视频分析与伪造检测的新方法甄别视频内容的真假,无疑会变得更困难。
“目前针对性技术的进展还比较初步,仍需加强各类检测技术的开发和优化。”董晶告诉《中国科学报》,当前,技术方面还是沿用常规检验测试技术思路,因此要在构建新型伪造视频数据集的基础上,提高模型的识别能力。
同时,还需要及时来更新已有视频检测模型对新型生成视频算法的兼容性。此外,还可借助数字水印、数字签名、视频检索等技术方法,加强对生成视频数据生命周期的追踪与管理。
“总体而言,目前视频内容鉴伪仍处于相对被动的状态,需要针对不断迭代升级的视频合成新算法去博弈验证。”董晶表示,尽管越来越难,但AI视频在生成过程中仍不可避免地会产生一些特定的模式或痕迹,相关检测技术也会持续利用这些肉眼不易察觉的线索来反制、分析和鉴伪。
她和团队从多个角度提出了新的检测算法。这些算法或基于重建误差,或基于多模态对比学习,或基于伪造特征纯化,均是对“新的特定鉴伪线索挖掘”的不断尝试。
为避免引发混乱,“从源头约束”等非技术方案频频被提起。例如,有人提出,可以约定如OpenAl等相关AIGC技术主体,在生成视频之初就埋下AI生成的印记。
董晶对《中国科学报》表示,埋设标记的方法是目前可推荐的应对策略之一,但仍需克服技术上的挑战和限制,如标记的可靠性、隐蔽性、普适性等,并考虑隐私和安全等因素。
相对于对视频的被动检测,水印或标记属于主动防御。董晶和记者说,其团队目前也围绕视觉生成式水印开展了一些研究工作——他们盼望在目前生成式模型中加入“鲁棒水印嵌入模块”,为的是让生成的视频本身携带可见或不可见的数字水印。
他们最近还尝试了在真实图像或视频中加入“对抗噪声”,这样一来,生成模型就不能在这些源数据上进行AI合成。
“人们需要完善AI数据治理与AI工具使用的监督管理法规,同时开展科普教育,加强行业规范和公众的相关防范意识等。”董晶说,对于境外AI生成服务主体,如OpenAI,“我们呼吁推动建立具有国际共识的AI数据技术标准与规范,形成共同应对生成视频的合理标记和协同监管方案”。
董晶认为,通过规范Sora这类新型视频生成工具的使用,如对其训练所依赖的源数据集做好管理和收集、规范可能会产生敏感或虚假内容的生成视频的输出和安全性测试、规范治理与管控措施,便可降低AI生成视频的滥用风险,“甄别难度不会一直增加”。
尽管认同“不应将辨别视频是否为AI生成的工作交给公众”,但董晶坚持认为,普通人还是能在面对视频内容时“多留几个心眼儿”,以防上当受骗。
首先,观察视频细节的逻辑真实性,例如视频中人物动作、背景环境等是否与客观世界相符,人物的生理特征(如牙齿、手指、皮肤纹理、虹膜颜色等)是不是满足常理。
她表示,现阶段Sora算法等能否简单便捷地大量生成高质量图像视频还是未知,从已公布的视频片段来看,其在运动上的瑕疵,仔仔细细地观察还是能够辨别的。
其次,观察视频的质量和清晰度是否均衡。一般而言,AI生成的视频可能会在画面质量、清晰度等方面存在一些瑕疵,例如图像模糊、画面抖动等。
最后,检查视频的内容逻辑是不是合理,比如内容和情节是不是合理和连贯。如有疑虑,可进一步查看、发布平台、评论、格式和制作时间等信息是否可信或一致。还能借助一些专门用于检测AI生成视频的技术工具和软件交叉验证。
董晶表示,在视频聊天等交互场景下,可以主动要求对方转为侧脸、靠近或远离镜头等加以甄别,因为现有伪造技术对较大运动变化的预测和生成效果相对较差。
除此之外,董晶提醒,在当下复杂的媒介和舆论环境下,普通公众应积极学习相应知识、适当了解AI生成的机制和破绽,以备不时之需。
“其作用就像定期接种最新流感疫苗一样,能增强对虚假视频的‘免疫力’,变得不再盲从。”董晶对记者说,“虽然我个人觉得民众无须承担辨别AI生成内容的工作,但于公于私,提高全民网络素养和安全防范意识,最大限度地避免虚假信息传播、经济诈骗、舆情误导并促进社会信任,是我们每个人应尽的义务。”