语音编辑新时代:像修改文字一样编辑语音
在人工智能重塑文本和图像生成的时代,语音编辑终于迎来重大突破。StepFun AI最新开源项目Step-Audio-EditX,让语音编辑变得像修改文字一样简单直观。
从复杂波形到简单标记:语音编辑的根本变革
传统语音编辑需要处理复杂的波形信号,操作门槛极高。Step-Audio-EditX采用30亿参数音频语言模型,将语音转化为文本标记级别的操作。
这意味着开发者现在可以:
- 直接编辑语音情感和语调
- 调整说话风格和语气
- 控制呼吸声等细节特征
精准控制:超越声音模仿
现有语音系统大多只能模仿声音,缺乏精准控制能力。Step-Audio-EditX通过创新架构实现真正可控:
模型不再依赖复杂编码器,而是通过改变数据结构实现控制。它学习文本相同但属性不同的语音对,掌握在保持内容不变的前提下调整各种语音特征。
核心技术:双码本分词与30亿参数模型
Step-Audio-EditX采用双码本分词器架构:
- 语言流:16.7Hz采样率,1024个标记
- 语义流:25Hz采样率,4096个标记
- 两者以2:3比例交错排列,完美保留语音特征
基于此构建的30亿参数音频LLM,在文本和音频混合数据上训练,始终输出双码本标记序列。
创新训练:大间隔学习与数据策略
大间隔学习是模型的关键创新。模型学习在差异明显的语音属性间转换,实现精准控制。
训练数据覆盖6万名说话人,包含中文、英语、粤语和四川话。通过人工配音与系统生成结合,确保数据质量。
两阶段训练:从理解到优化
- 监督微调:模型学习语音合成和编辑任务
- 强化学习:优化对自然语言指令的响应能力
这种训练方式让模型真正理解人类指令意图。
卓越性能:评测结果令人惊艳
团队推出Step-Audio-Edit-Test评测标准,结果显示:
- 中文情感准确率:57.0%提升至77.7%
- 风格准确率:41.6%提升至69.2%
- 英文表现同样优秀
更重要的是,该模型能显著提升GPT-4o mini TTS、ElevenLabs等商业系统的表现。
开源共享:降低语音编辑门槛
StepFun AI选择全栈开源策略,发布模型权重和训练代码。这极大降低了语音编辑研究门槛,推动技术普及。
项目资源:
项目地址:https://stepaudiollm.github.io/step-audio-editx/
技术论文:https://arxiv.org/pdf/2511.03601
GitHub代码:https://github.com/stepfun-ai/Step-Audio-EditX
在线体验:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX
Step-Audio-EditX代表了语音编辑技术的重大飞跃。它将复杂的语音处理转化为直观的标记操作,让语音编辑真正达到文本编辑的流畅体验。




