I2VGen-XL包括两个阶段: i) 基础阶段通过使用两个分层编码器保证连贯的语义,并保留输入图像的内容, ii) 优化阶段通过整合额外的简短文本来增强视频的细节,并将分辨率提高到1280x720。
收集了约3500万个单镜头文本视频对和60亿个文本图像对来优化模型。 通过这种方式,I2VGen-XL可以同时提高生成视频的语义准确性、细节的连续性和清晰度。