FramePack — 低配显卡生成高质量 AI 视频

GitHub 开发者 Lvmin Zhang 与斯坦福大学教授 Maneesh Agrawala 联合发布了一项颠覆性的AI视频生成技术— FramePack。该技术通过引入固定长度的时域上下文（Temporal Context），大幅降低显存与算力需求，使得普通硬件也能胜任高质量视频的生成任务。

在实测中，研究人员使用基于 FramePack 的 130 亿参数模型，仅借助一块 6GB 显存的显卡，就成功生成了时长达 60 秒的视频，性能表现令人惊艳。

FramePack 核心优势：

固定时域上下文：不同于传统视频扩散模型随着帧数增加而显存需求暴涨，FramePack 会自动分析输入帧的重要性，进行压缩处理，将输入统一转换为固定长度的上下文，有效控制资源占用。
显存占用低：计算量与图像扩散模型相当，大幅减少硬件门槛。
实时预览支持：每一帧生成后可立即显示，便于随时调整。
解决漂移问题：有效缓解视频长度增加后画面质量下降的“drifting”问题，实现更长、更稳、更清晰的本地视频生成。

技术架构与兼容性：

FramePack 本质上是一种多级优化的神经网络架构，目前底层采用的是定制化的腾讯混元模型。但更关键的是，它对市面上已有的预训练扩散模型也具备良好的兼容性与适配能力，便于进行迁移学习与个性化微调。

硬件与系统支持：

显卡要求：支持 FP16、BF16 精度，兼容 RTX 30、40、50 系列显卡（除 RTX 3050 4GB 外基本全覆盖）。RTX 20 系列及更早版本尚未验证，暂不支持 AMD 或 Intel GPU。
系统支持：兼容 Windows 与 Linux 系统，部署灵活。
性能表现：在 RTX 4090 上经 Teacache 优化后，生成速度可达每秒 0.6 帧，效率不俗。

一、部署要求

1、nVidia RTX 30xx、40xx、50xx 系列支持 fp16 和 bf16。GTX Titan X（Pascal）经博主测试不支持，其他 GTX 10xx/20xx 显卡未经测试。

2、Linux 或 Windows 操作系统，博主采用的是 Windows 10 IoT Enterprise LTSC。

3、6GB 显存，博主采用的是 nVidia RTX 3060Ti-8GB 显卡。

4、CUDA v12.6

5、Python 3.10.0

二、安装部署

1、下载一键安装部署包，解压缩至要运行的磁盘。博主已提前安装好 CUDA v12.6 和 Python 3.10.0。

2、科学上网

3、以管理员模式打开 CMD，运行 update.bat 进行更新

4、再运行 run.bat，运行后模型将自动下载。将从 HuggingFace 下载超过 30GB 的数据。

5、运行后，将自动打开默认浏览器，默认地址为：127.0.0.1:7860

注意：如果需要在内网的其他电脑上打开，需要修改 run.bat 文件中的 IP地址，改为：

"%DIR%\python\python.exe" demo_gradio.py --server 0.0.0.0 --inbrowser

三、生成效果

博主未对默认参数进行大的调整（未勾选【Use TeaCache】,显存设置 8GB，Total Video Length 为10 秒，MP4 Compression 为 8，Prompt 直接选择的是 Quick List 中的“The girl dances gracefully, with clear movements, full of charm.”），生成效果如下：

微信图片_2025-05-29_070654_569.jpg 、