SAP 发布首个真实 ERP 数据集,推进企业人工智能研究
该数据集基于真实客户ERP系统中的销售订单数据,已脱敏处理,并以结构化、多表关联的方式提供,现已在 Hugging Face 和 GitHub 上开放访问。而网络上丰富的文本数据并不适用于训练处理企业数据的AI模型。SALT 数据集通过模拟真实客户与系统交互的数据,成为企业AI模型训练与评估的理想样本,可用于开发更强大的基础模型,推动企业自动化。SAP 研究人员指出,SALT 的推出可以帮助缩小学
随着生成式人工智能在自然语言处理上的不断进步,其在企业应用中的潜力不断扩大。然而,将大型语言模型(LLMs)应用于结构化的表格数据(如企业运营中的关键数据)仍面临诸多挑战。主要原因之一是缺乏现实、高质量的企业表格数据集。而网络上丰富的文本数据并不适用于训练处理企业数据的AI模型。
为了填补这一空白,SAP 发布了首个真实的企业资源规划(ERP)系统数据集,名为 SALT(Sales Autocompletion Linked Business Tables)。该数据集基于真实客户ERP系统中的销售订单数据,已脱敏处理,并以结构化、多表关联的方式提供,现已在 Hugging Face 和 GitHub 上开放访问。SALT 的发布旨在为企业级AI模型的研究和评估提供真实世界的训练数据支持。
企业数据的获取难度较高,主要由于数据隐私、商业机密和结构复杂性等因素。一条销售订单往往涉及多个关联表(如客户、地址、产品等),数据类型多样(文本、数值、类别等),且分布极度不均。这些特点使得企业数据远比普通文本复杂,传统模型难以适应。
SAP 研究人员指出,SALT 的推出可以帮助缩小学术界与工业界之间在数据可用性上的差距,使研究者不再局限于“模拟数据”,而是能在真实企业环境下测试和改进模型。
ERP 系统管理企业核心业务,如财务、采购和销售,拥有大量结构化数据。SALT 数据集通过模拟真实客户与系统交互的数据,成为企业AI模型训练与评估的理想样本,可用于开发更强大的基础模型,推动企业自动化。
SAP 也计划未来发布更多数据集,涵盖不同客户和业务场景,进一步丰富模型预训练、适配与基准测试的基础。此外,SAP 鼓励与高校合作,通过开放数据促进更多科研成果的产生。
除了开放数据,SAP 还在开发名为 SAP Foundation Model 的企业级AI模型,专为处理结构化表格数据设计。这一模型可在无需大量额外训练数据的情况下直接应用于预测任务,并与 SAP 知识图谱结合使用,提升对企业数据语义关系的理解与建模能力。该模型的初步研究成果已通过 PORTAL 论文发布。
通过 SALT 和 SAP Foundation Model,SAP 希望打通AI技术在企业数据中的应用瓶颈,加快企业数据智能化转型进程。
原文:https://news.sap.com/2025/04/sap-salt-real-erp-dataset-enterprise-ai-research/

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)