大模型的数据合成与增强技术总结:
大模型数据工程进展-大模型的数据合成与扩充综述,A Survey on Data Synthesis and Augmentation for Large Language Models ,详细介绍了数据生成的两个主要方法:数据扩充和合成 :https://arxiv.org/pdf/2410.12896。这个工作不错,探讨了大模型在训练和评估过程中对大量、多样化和高质量数据的需求,并分析了当前数
文章转自公众号老刘说NLP
大模型的数据合成与增强综述
大模型数据工程进展-大模型的数据合成与扩充综述,A Survey on Data Synthesis and Augmentation for Large Language Models ,详细介绍了数据生成的两个主要方法:数据扩充和合成 :https://arxiv.org/pdf/2410.12896。
这个工作不错,探讨了大模型在训练和评估过程中对大量、多样化和高质量数据的需求,并分析了当前数据生成技术的发展状况,值得看看。
可以看几个点:
2、数据合成和增强技术的演进步骤
3、数据准备阶段中数据合成和增强技术概览
表格按照不同的研究方法分类,展示了它们使用的数据源以及生成的合成数据
4、预训练中的数据合成和增强技术概览
5、微调中的数据合成和增强技术概览
6、指令微调的数据合成和增强技术概览
参考文献
1、https://arxiv.org/pdf/2410.12896
2、https://github.com/360AILABNLP/360LayoutAnalysis
3、https://arxiv.org/pdf/2401.17043
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)