LLM推理优化技术方向小结

LLM推理优化我认为总共可以分为以下几个方面：

seetimee

423人浏览 · 2024-07-07 23:20:39

seetimee · 2024-07-07 23:20:39 发布

LLM推理优化我认为总共可以分为以下几个方面：

优化KV Cache
- MQA
- GQA
- MLA
调度
- Continuous batching
- KIMI的调度系统Mooncake
魔改模型结构或者魔改 attention 计算
- MOE架构
- flash attention
- paged attention
量化
- AWQ
- GPTQ
其他角度
- 一次解码 n 个 token 来尽可能充分利用子回归解码中没有充分利用的算力
  - 投机采样
  - Lookahead Decoding
  - Prompt Decoding

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

cover

工业物联网时序数据库选型指南：Apache IoTDB 技术架构与实战解析

cover

面向未来的工业大数据架构：时序数据库（TSDB）选型避坑指南和国产化思考

cover

宇树G1-D：人形机器人下一步方向！

所有评论(0)

查看更多评论

seetimee

已为社区贡献3条内容