Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”

AIBase2025-11-10
80
Step-Audio-EditX:语音编辑的革命性突破 | AI语音技术

语音编辑新时代:像修改文字一样编辑语音

在人工智能重塑文本和图像生成的时代,语音编辑终于迎来重大突破。StepFun AI最新开源项目Step-Audio-EditX,让语音编辑变得像修改文字一样简单直观。

从复杂波形到简单标记:语音编辑的根本变革

传统语音编辑需要处理复杂的波形信号,操作门槛极高。Step-Audio-EditX采用30亿参数音频语言模型,将语音转化为文本标记级别的操作

这意味着开发者现在可以:

  • 直接编辑语音情感和语调
  • 调整说话风格和语气
  • 控制呼吸声等细节特征
Step-Audio-EditX语音编辑界面展示

精准控制:超越声音模仿

现有语音系统大多只能模仿声音,缺乏精准控制能力。Step-Audio-EditX通过创新架构实现真正可控:

模型不再依赖复杂编码器,而是通过改变数据结构实现控制。它学习文本相同但属性不同的语音对,掌握在保持内容不变的前提下调整各种语音特征。

核心技术:双码本分词与30亿参数模型

Step-Audio-EditX采用双码本分词器架构:

  • 语言流:16.7Hz采样率,1024个标记
  • 语义流:25Hz采样率,4096个标记
  • 两者以2:3比例交错排列,完美保留语音特征

基于此构建的30亿参数音频LLM,在文本和音频混合数据上训练,始终输出双码本标记序列。

Step-Audio-EditX技术架构详解

创新训练:大间隔学习与数据策略

大间隔学习是模型的关键创新。模型学习在差异明显的语音属性间转换,实现精准控制。

训练数据覆盖6万名说话人,包含中文、英语、粤语和四川话。通过人工配音与系统生成结合,确保数据质量。

两阶段训练:从理解到优化

  1. 监督微调:模型学习语音合成和编辑任务
  2. 强化学习:优化对自然语言指令的响应能力

这种训练方式让模型真正理解人类指令意图。

卓越性能:评测结果令人惊艳

团队推出Step-Audio-Edit-Test评测标准,结果显示:

  • 中文情感准确率:57.0%提升至77.7%
  • 风格准确率:41.6%提升至69.2%
  • 英文表现同样优秀

更重要的是,该模型能显著提升GPT-4o mini TTS、ElevenLabs等商业系统的表现。

开源共享:降低语音编辑门槛

StepFun AI选择全栈开源策略,发布模型权重和训练代码。这极大降低了语音编辑研究门槛,推动技术普及。

项目资源:

项目地址:https://stepaudiollm.github.io/step-audio-editx/

技术论文:https://arxiv.org/pdf/2511.03601

GitHub代码:https://github.com/stepfun-ai/Step-Audio-EditX

在线体验:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

Step-Audio-EditX代表了语音编辑技术的重大飞跃。它将复杂的语音处理转化为直观的标记操作,让语音编辑真正达到文本编辑的流畅体验。

未经允许不得转载:研发测试使用Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”
广告1