Step-Audio 2 Technical Report

multi-modal

language model

audio understanding

speech recognition

reinforcement learning

paralinguistic information

retrieval-augmented generation

by Boyong WuChao YanChen HuCheng YiChengli FengFei TianFeiyu ShenGang YuHaoyang ZhangJingbei LiMingrui ChenPeng LiuWang YouXiangyu Tony ZhangXingyuan LiXuerui YangYayue DengYechang HuangYuxin LiYuxin ZhangZhao YouBrian LiChangyi WanHanpeng HuJiangjie ZhenSiyu ChenSong YuanXuelin ZhangYimin JiangYu ZhouYuxiang YangBingxin LiBuyun MaChanghe SongDongqing PangGuoqiang HuHaiyang SunKang AnNa WangShuli GaoWei JiWen LiWen SunXuan WenYong RenYuankai MaYufan LuBin WangBo LiChangxin MiaoChe LiuChen XuDapeng ShiDingyuan HuDonghang WuEnle LiuGuanzhe HuangGulin YanHan ZhangHao NieHaonan JiaHongyu ZhouJianjian SunJiaoren WuJie WuJie YangJin YangJunzhe LinKaixiang LiLei YangLiying ShiLi ZhouLonglong GuMing LiMingliang LiMingxiao LiNan WuQi HanQinyuan TanShaoliang PangShengjie FanSiqi LiuTiancheng CaoWanying LuWenqing HeWuxun XieXu ZhaoXueqi LiYanbo YuYang YangYi LiuYifan LuYilei WangYuanhao DingYuanwei LiangYuanwei LuYuchu LuoYuhe YinYumeng ZhanYuxiang ZhangZidong YangZixin ZhangBinxing JiaoDaxin JiangHeung-Yeung ShumJiansheng ChenJing LiXiangyu ZhangYibo Zhu

arXiv:2507.16632 - [arXiv PDF]

Abstract

This paper presents Step-Audio~2, an end-to-end multi-modal large language model designed for industry-strength audio understanding and speech conversation. By integrating a latent audio encoder and reasoning-centric reinforcement learning (RL), Step-Audio 2 achieves promising performance in automatic speech recognition (ASR) and audio understanding. To facilitate genuine end-to-end speech conversation, Step-Audio 2 incorporates the generation of discrete audio tokens into language modeling, significantly enhancing its responsiveness to paralinguistic information such as speaking styles and emotions. To effectively leverage the rich textual and acoustic knowledge in real-world data, Step-Audio 2 integrates retrieval-augmented generation (RAG) and is able to call external tools such as web search to mitigate hallucination and audio search to switch timbres. Trained on millions of hours of speech and audio data, Step-Audio 2 delivers intelligence and expressiveness across diverse conversational scenarios. Evaluation results demonstrate that Step-Audio 2 achieves state-of-the-art performance on various audio understanding and conversational benchmarks compared to other open-source and commercial solutions. Please visit https://github.com/stepfun-ai/Step-Audio2 for more information.

Stay updated on the latest trending research with our newsletter. Never miss a release date!