文章转自公众号老刘说NLP


大模型的数据合成与增强综述

大模型数据工程进展-大模型的数据合成与扩充综述,A Survey on Data Synthesis and Augmentation for Large Language Models ,详细介绍了数据生成的两个主要方法:数据扩充和合成 :https://arxiv.org/pdf/2410.12896。b58c05da37b60229d51b87d0b4e79959.jpeg这个工作不错,探讨了大模型在训练和评估过程中对大量、多样化和高质量数据的需求,并分析了当前数据生成技术的发展状况,值得看看。

可以看几个点:

2、数据合成和增强技术的演进步骤

a9be7d53dbe62b2fc7126b8ff8c74f12.jpeg

3、数据准备阶段中数据合成和增强技术概览

2958e5361abc409f85468ba324425114.jpeg

表格按照不同的研究方法分类,展示了它们使用的数据源以及生成的合成数据

4、预训练中的数据合成和增强技术概览

747a7530a59509dd2164773699d7959a.jpeg

5、微调中的数据合成和增强技术概览

f7d62e54a1629817c145266767c64d32.jpeg

6、指令微调的数据合成和增强技术概览

29cd4ab213cec5733edec2a1257e21bd.jpeg

参考文献

1、https://arxiv.org/pdf/2410.12896

2、https://github.com/360AILABNLP/360LayoutAnalysis

3、https://arxiv.org/pdf/2401.17043


Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐