语音编辑新时代：像修改文字一样编辑语音

在人工智能重塑文本和图像生成的时代，语音编辑终于迎来重大突破。StepFun AI最新开源项目Step-Audio-EditX，让语音编辑变得像修改文字一样简单直观。

从复杂波形到简单标记：语音编辑的根本变革

传统语音编辑需要处理复杂的波形信号，操作门槛极高。Step-Audio-EditX采用30亿参数音频语言模型，将语音转化为文本标记级别的操作。

这意味着开发者现在可以：

现有语音系统大多只能模仿声音，缺乏精准控制能力。Step-Audio-EditX通过创新架构实现真正可控：

模型不再依赖复杂编码器，而是通过改变数据结构实现控制。它学习文本相同但属性不同的语音对，掌握在保持内容不变的前提下调整各种语音特征。

Step-Audio-EditX采用双码本分词器架构：

基于此构建的30亿参数音频LLM，在文本和音频混合数据上训练，始终输出双码本标记序列。

大间隔学习是模型的关键创新。模型学习在差异明显的语音属性间转换，实现精准控制。

训练数据覆盖6万名说话人，包含中文、英语、粤语和四川话。通过人工配音与系统生成结合，确保数据质量。

这种训练方式让模型真正理解人类指令意图。

团队推出Step-Audio-Edit-Test评测标准，结果显示：

更重要的是，该模型能显著提升GPT-4o mini TTS、ElevenLabs等商业系统的表现。

StepFun AI选择全栈开源策略，发布模型权重和训练代码。这极大降低了语音编辑研究门槛，推动技术普及。

项目资源：

项目地址：https://stepaudiollm.github.io/step-audio-editx/

技术论文：https://arxiv.org/pdf/2511.03601

GitHub代码：https://github.com/stepfun-ai/Step-Audio-EditX

在线体验：https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

Step-Audio-EditX代表了语音编辑技术的重大飞跃。它将复杂的语音处理转化为直观的标记操作，让语音编辑真正达到文本编辑的流畅体验。