Android AAC解码为PCM的实战指南：从MediaCodec到音频处理优化

基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。架构理解：掌握实时语音应用的完整技术链路（ASR→LLM→TTS）技能提升：学会申请、配置与调用火山引擎AI服务定制能力：通过代码修改自定义角色性

IInter367

345人浏览 · 2026-01-16 01:18:47

IInter367 · 2026-01-16 01:18:47 发布

快速体验

在开始今天关于 Android AAC解码为PCM的实战指南：从MediaCodec到音频处理优化 的探讨之前，我想先分享一个最近让我觉得很有意思的全栈技术挑战。

我们常说 AI 是未来，但作为开发者，如何将大模型（LLM）真正落地为一个低延迟、可交互的实时系统，而不仅仅是调个 API？

这里有一个非常硬核的动手实验：基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。

架构图

从0到1构建生产级别应用，脱离Demo，点击打开从0打造个人豆包实时通话AI动手实验

Android AAC解码为PCM的实战指南：从MediaCodec到音频处理优化

在移动端音频处理领域，AAC（Advanced Audio Coding）作为主流压缩格式，与原始音频数据PCM（Pulse Code Modulation）的转换是开发中的高频需求。AAC通过有损压缩节省存储空间，而PCM则是未经压缩的原始音频数据流，两者转换的质量和效率直接影响音视频应用的性能表现。

开发者常见痛点分析

解码延迟问题：实时语音场景下，解码耗时直接影响用户体验
内存消耗过大：不当的缓冲区管理会导致OOM风险
版本兼容性：不同Android版本对MediaCodec的实现存在差异
格式适配复杂：ADTS/ADIF等AAC封装格式需要特殊处理

MediaCodec核心解码流程

初始化配置

// 创建解码器实例（建议使用异步模式）
val codec = MediaCodec.createDecoderByType(MediaFormat.MIMETYPE_AUDIO_AAC)

// 配置音频参数
val format = MediaFormat().apply {
    setString(MediaFormat.KEY_MIME, MediaFormat.MIMETYPE_AUDIO_AAC)
    setInteger(MediaFormat.KEY_SAMPLE_RATE, 44100) // 必须与输入音频一致
    setInteger(MediaFormat.KEY_CHANNEL_COUNT, 2)    // 立体声
    setInteger(MediaFormat.KEY_BIT_RATE, 128000)    // 128kbps
    setInteger(MediaFormat.KEY_IS_ADTS, 1)          // 标识ADTS格式
}

// 重要：某些设备需要额外设置CSD-0参数
format.setByteBuffer("csd-0", ByteBuffer.wrap(aacConfigData))

codec.configure(format, null, null, 0)

解码循环实现

codec.start()
val bufferInfo = MediaCodec.BufferInfo()

while (isDecoding) {
    // 获取输入缓冲区
    val inIndex = codec.dequeueInputBuffer(TIMEOUT_US)
    if (inIndex >= 0) {
        val buffer = codec.getInputBuffer(inIndex)
        buffer?.clear()

        // 填充AAC数据
        val sampleSize = aacSource.read(buffer)
        if (sampleSize > 0) {
            codec.queueInputBuffer(inIndex, 0, sampleSize, presentationTimeUs, 0)
        }
    }

    // 处理输出缓冲区
    val outIndex = codec.dequeueOutputBuffer(bufferInfo, TIMEOUT_US)
    when (outIndex) {
        MediaCodec.INFO_OUTPUT_FORMAT_CHANGED -> {
            // 输出格式变化时获取新格式
            outputFormat = codec.outputFormat
        }
        MediaCodec.INFO_TRY_AGAIN_LATER -> {
            // 暂时无可用输出
        }
        else -> {
            if (outIndex >= 0) {
                val pcmBuffer = codec.getOutputBuffer(outIndex)
                // 处理PCM数据...
                codec.releaseOutputBuffer(outIndex, false)
            }
        }
    }
}

性能优化关键策略

缓冲区复用方案

输入缓冲区池：预分配固定数量的ByteBuffer减少GC
输出PCM环形缓冲区：避免频繁内存分配
使用ByteBuffer.allocateDirect：减少JNI传输开销

异步解码实现

codec.setCallback(object : MediaCodec.Callback() {
    override fun onInputBufferAvailable(codec: MediaCodec, index: Int) {
        // 异步填充数据
    }

    override fun onOutputBufferAvailable(
        codec: MediaCodec,
        index: Int,
        info: MediaCodec.BufferInfo
    ) {
        // 异步处理PCM输出
    }
})