一、大模型备案的必要性

- 规范行业发展:为AI企业提供明确的合规指引

- 保障数据安全:防止敏感数据泄露和滥用

- 维护用户权益:确保AI服务的可靠性、安全性

- 促进技术创新:在合规框架下鼓励负责任的技术研发

二、备案前准备工作

1.备案申报资格

 - 模型具备舆论属性

- 模型进行了微调

- 模型有自己的训练语料

2.主体资质确认

- 申请主体应为境内依法设立的企业或机构

- 具备与提供服务相适应的技术、设备和人员保障

- 具有健全的管理制度和技术保障措施

3. 技术材料准备

- 模型架构设计文档

- 训练数据来源说明及合规证明

- 算法原理与技术白皮书

- 内容过滤机制设计方案

- 用户隐私保护方案

 4. 合规风险评估

- 开展安全自评估

- 建立内容审核机制

- 制定应急处置预案

- 完成数据安全评估

三、备案流程详解

阶段一:线下申报

1. 电话预约当地省网信办进行线下模型测试

2. 无问题后领取“生成式人工智能服务上线备案

3. 填写表格并撰写材料

4. 提交测试账号给到网信办进行模型测试

5. 专家进行评审

阶段二:形式审查

- 备案机关对材料完整性进行审核

- 可能出现的问题:

  - 材料缺失或不规范

  - 信息填写不完整

  - 证明材料不充分

 阶段三:实质审查

- 技术团队对算法安全性、合规性进行评估

- 可能要求补充说明或调整方案

- 重点审查方向:

  - 数据来源合法性

  - 内容过滤有效性

  - 偏见歧视防范措施

  - 用户权益保障机制

阶段四:备案公示与发证

- 通过审查后,算法备案信息将在官网公示

- 获取备案编号(需在服务显著位置展示)

- 备案有效期为长期有效。需特别注意的是:对于训练语料、所用算法、安全防范措施相同,只是参数大小不同的大语言模型,可视为同一模型,无须重复备案。

 四、安全评估注意事项

1、语料

(1)文本训练语料规模

训练语料存储规模,按文本格式存储时的语料大小。

训练语料数量,按词元 (Token) 计数。

(2)各类型语料规模

训练语料中的中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。

(3)训练语料来源

训练语料来源的组成情况,按照开源语料、自采语料、商业语料进行分类。

境外开源网站语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。

自采语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。

商业语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。

注:境外开源预料的总量不得超过总语料规模的30%

(4)语料合法性

语料来源合法性情况。

语料是否包含侵害他人知识产权内容。

语料是否包含违法违规的个人信息内容。

2、安全评估

(1)语料内容评估

采用人工抽检,说明抽检数量与合格率。

采用关键词抽检,说明抽检数量与合格率。

采用分类模型抽检,说明抽检数量与合格率。

(2)生成内容评估

采用人工抽检,说明抽检数量与合格率。

采用关键词抽检,说明抽检数量与合格率。

采用分类模型抽检,说明抽检数量与合格率。

(3)涉知识产权、商业秘密的评估

评估方法、评判标准以及评估结果等。

(4)涉民族、信仰、性别等的评估

评估方法、评判标准以及评估结果等。

(5)涉透明性、准确性、可靠性等的评估

评估方法、评判标准以及评估结果等。

  大模型备案不是创新的阻碍,而是行业健康发展的保障。企业应尽早建立合规体系,将备案要求融入产品开发生命周期,实现技术创新与合规发展的平衡。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐