图1 Woosh核心推理架构:左为文本转音效(Woosh-Flow),右为视频转音效(Woosh-VFlow)四大核心模块分工明确,形成闭环生成能力:
- 1. Woosh-AE:高保真音频编解码器,负责音频潜空间编码与无损重建;
- 2. Woosh-CLAP:文本-音频对齐模型,为生成提供精准语义条件;
- 3. Woosh-Flow/DFlow:文本转音效扩散模型,原版+蒸馏版双版本适配不同算力;
- 4. Woosh-VFlow/DVFlow:视频转音效多模态模型,支持视频+文本双条件生成。
二、硬核底座:Woosh-AE 碾压级音频编解码能力
音效生成的核心是音频重建质量,Woosh-AE基于VOCOS架构优化,采用无量化设计,通过STFT/iSTFT实现一步上下采样,彻底解决传统模型的混叠伪影问题。解码器采用ConvNeXt残差级联结构,精准预测音频幅度与相位,规避相位包裹缺陷。
为验证其性能,研究团队在公共数据集AudioCaps、专业音效数据集InternalSFX上,与Stable Audio Open(SAO-VAE)、Encodec等主流模型展开对比,核心指标如下:
表1 Woosh-AE核心性能对比
数据直观体现:Woosh-AE的SI-SDR(信号失真比) 远超基线模型,公共数据集上比SAO-VAE提升20dB以上;MelDist(对数梅尔距离) 降低85%,实现了专业级无损音频重建,为后续生成奠定音质基础。
三、语义对齐:Woosh-CLAP 精准匹配文本与音效
生成音效的语义一致性,依赖跨模态对齐能力。Woosh-CLAP采用RoBERTa-Large文本编码器+PaSST音频编码器,将文本与音频映射至1024维共享向量空间,通过对比学习实现精准语义匹配。
实验结果极具针对性:
- • 公共通用数据集上,性能接近LAION-CLAP;
- • 专业音效数据集上,文本检索音效召回率(T2A-R@10)比LAION-CLAP提升248%,完美适配影视、游戏等专业场景的音效描述习惯。
四、文本转音效:Woosh-Flow 极速蒸馏,4步生成高保真音效
Woosh-Flow采用流匹配(Flow Matching) 训练目标,替代传统扩散模型的噪声预测,训练更稳定、生成更顺滑。核心突破在于MeanFlow蒸馏技术:
- 1. 原版Woosh-Flow:70步推理,音质拉满;
- 2. 蒸馏版Woosh-DFlow:仅4步推理,音质损失可忽略,算力需求降低95%。
研究团队与Stable Audio、TangoFlux展开横向测评,核心指标(FD↓音质、CLAP↑语义对齐)如下:
表2 文本转音效模型性能对比
关键结论:Woosh-Flow参数量仅为SAO的1/3,FD(弗雷歇距离)降低27%,语义对齐分数提升150%;蒸馏版DFlow仅4步推理,性能仍碾压基线模型,实现低算力+高音质的平衡。
五、视频转音效:Woosh-VFlow 三模态建模,音画精准同步
Woosh首次将音效生成拓展至视频模态,Woosh-VFlow基于SynchFormer提取24Hz视频特征,改造Transformer架构支持文本+视频+音频三模态联合注意力,实现音画自动同步,无需人工对齐。
在专业视频音效基准FoleyBench、游戏视频数据集OGameData上,Woosh-VFlow以413M参数量,完胜621M参数量的SOTA模型MMAudio-M:
- • 蒸馏版Woosh-DVFlow保持性能的同时,推理步骤压缩至4步;
- • 人工测评显示,生成音效与视频画面无感知同步偏差,自动化指标的局限性不影响实际使用效果。
六、Woosh核心创新与行业价值
作为索尼AI开源的专业音效大模型,Woosh打破了通用音频模型的瓶颈,三大创新直击行业痛点:
- 1. 无量化编解码:放弃传统神经音频编码的量化设计,重建质量行业领先;
- 2. 极速蒸馏技术:MeanFlow+对抗蒸馏,4步推理实现工业级落地;
- 3. 专业域适配:针对商业音效数据集优化,影视/游戏场景表现远超通用模型。
目前Woosh已完全开源,推理代码与模型权重已上传GitHub,支持开发者二次开发,可直接应用于游戏音效自动生成、影视 Foley 制作、短视频配乐、AI数字人音效等场景,大幅降低内容生产的音频成本。
七、未来展望
索尼AI团队表示,Woosh将持续迭代,后续将开放音效编辑、变体生成、音频修复、少样本个性化等能力,支持精准时长控制、音色渐变、风格迁移等创意操作,打造全流程音效生成工具链。
从文本到视频,从高保真到极速推理,Woosh的开源不仅为音频研究社区提供了强力基线,更让AI音效生成真正走进工业级应用。未来,AI将彻底重构音频内容生产的 workflow,让专业音效创作不再有门槛。
> 论文地址:2604.01929v1.pdf
> 开源地址:https://github.com/SonyResearch/Woosh
> 效果演示:https://sonyresearch.github.io/Woosh/