生信论文补充材料制作全规范:顶刊数据提交 + 格式标准化(含代码 / 数据集归档案例)
生信论文的补充材料早已超越 “附加内容” 的范畴,成为顶刊评判研究科学性的核心依据。从顶刊规范拆解到数据归档落地,从格式标准化到案例实操,本文构建的全流程体系核心在于 “以可复现为目标,以期刊要求为准则研究者需在实验设计阶段即规划数据存储与补充材料框架,避免投稿前仓促补救。遵循本文规范,不仅能提升顶刊通过率,更能推动生信研究的透明化与可重复性发展。
在生物信息学研究中,补充材料是论文科学性与可复现性的核心支撑,更是顶刊评审的 “隐形门槛”。Nature、PLOS 等顶级期刊早已将 “数据公开与补充材料规范” 纳入强制要求,不合格的补充材料可能直接导致拒稿。本文结合 2025 年最新顶刊指南与实战案例,从规范拆解、数据归档、格式标准到实操落地四大维度,构建生信补充材料制作的完整体系,助力研究者高效通过评审。
一、顶刊补充材料核心规范拆解:共性要求与期刊差异
顶刊对补充材料的要求本质上围绕 “可复现性、可读性、公开性” 三大核心,但不同期刊在细节上存在明确差异。需先明确目标期刊规则,再开展后续工作。
1. 跨期刊共性强制要求
根据 Nature、PLOS、IEEE TCBB 等期刊最新指南,以下要求具有普适性:
- 数据强制公开:原始测序数据(如 FASTQ)、处理后数据(如表达矩阵)必须存入公共数据库(SRA、GEO 等),并在补充材料中提供访问编号;未公开数据需提供合理说明(如伦理限制)。
- 代码可获取性:分析代码需托管至 GitHub、Zenodo 等平台,或作为补充文件提交,需包含完整运行说明,确保第三方可复现结果。
- 内容关联性:补充材料需与正文结论直接相关,避免冗余信息;如补充方法需详细到 “可重复操作”,补充图表需对应正文论点。
- 伦理合规性:涉及人类 / 动物数据的,需在补充材料中附加伦理审批编号(如 IRB-123456),并证明数据处理符合 GDPR、HIPAA 等法规。
2. 主流顶刊关键差异对比
不同期刊在格式、存储方式等方面的要求差异显著,直接影响补充材料制作逻辑,具体对比如下:
| 维度 | Nature 系列 | PLOS 系列 | IEEE TCBB |
|---|---|---|---|
| 文件整合要求 | 文本类(方法、结果)合并为单一 PDF | 按类型拆分文件(表格、图表单独提交) | 支持 PDF/Excel/MP4/ZIP 等混合格式 |
| 存储偏好 | 推荐 GEO/SRA+Zenodo 双归档 | 强制存入 figshare 备份 | 优先 IEEE DataPort 或 GEO |
| 命名规则 | 前缀 “Supp”+ 类型 + 编号(如 SuppFig1.pdf) | 前缀 “S”+ 编号 + 类型(如 S1_Table.xlsx) | 统一前缀 “Supp”+ 类型 + 编号 |
| 代码提交 | 需 ZenodoDOI(GitHub 链接需冻结版本) | 接受 GitHub 链接 + README | 代码需含版本控制信息 |
| 大小限制 | 单文件≤200MB,总大小无明确限制 | 单文件建议≤10MB | 无明确限制,推荐压缩为 ZIP |
注:Nature 自 2025 年起要求补充材料需包含 “可复现性声明”,明确说明数据与代码的关联方式及复现步骤;PLOS 则要求所有补充文件需在正文末尾列出完整 caption。
二、数据归档全流程:从准备到公开的顶刊合规方案
数据归档是补充材料的 “根基”,需根据数据类型(原始测序数据、处理后数据、临床元数据等)选择对应平台。SRA、GEO、Zenodo 是生信领域顶刊认可的三大核心平台,其操作流程与合规要点如下:
1. 原始测序数据归档:NCBI SRA 平台实操指南
SRA(Sequence Read Archive)是存储原始测序数据的国际标准平台,适用于 RNA-seq、单细胞测序等所有高通量数据,顶刊均强制要求其归档。
(1)归档前核心准备
- 数据预处理:原始 FASTQ 文件需压缩为
.fastq.gz格式,确保文件名包含样本 ID、测序端序(如 “NSCLC_Tumor_01_R1.fastq.gz”);双端测序需成对命名,避免错配。 - 元数据表格:提前整理样本信息,包括物种(如 Homo sapiens)、处理条件(如 “化疗组”/“对照组”)、测序平台(如 Illumina NovaSeq 6000)等,需与后续 BioSample 信息一致。
- 工具准备:大文件(>10GB)推荐使用 Aspera Connect(高速上传),小文件可直接网页上传;Windows 用户需配置 FileZilla 实现断点续传。
(2)五步完成 SRA 提交
- 创建 BioProject:登录 NCBI Submission Portal,选择 “BioProject”,填写项目标题(如 “Non-small cell lung cancer single-cell transcriptome analysis”)、研究目的及物种,获取 ID(如 PRJNA1234567)。
- 注册 BioSample:关联上述 BioProject ID,按模板填写每个样本的详细信息(必填项:Sample Name、Tissue、Treatment、Age 等),提交后获得 Sample ID(如 SAMN1234567);建议批量上传避免遗漏。
- 填写测序实验信息:进入 SRA 提交页面,选择 “Sequence Read Archive”,关联 BioProject 与 BioSample,明确测序策略(如 RNA-Seq)、文库类型(如 polyA 选择)、读长(如 150bp)等关键参数。
- 数据上传:
- 网页上传:≤5GB 文件直接拖拽,支持实时查看进度;
- Aspera 上传:使用命令
ascp -i /path/to/key -QT -l 300M ./local_file.gz subftp@upload.ncbi.nlm.nih.gov:uploads/xxx,速度可达 100MB/s; - 上传后需校验文件 MD5 值,确保与本地一致。
- 审核与发布:提交后 NCBI 会在 3-5 个工作日内审核,若信息不全需通过邮件补充;审核通过后获得 SRA 编号(如 SRR1234567),可设置 “发表后公开” 避免数据提前泄露。
2. 基因表达数据归档:GEO 平台规范操作
GEO(Gene Expression Omnibus)专注于处理后表达数据(如基因计数矩阵、归一化数据),是转录组、芯片研究的必备归档平台,其核心要求在于Metadata 规范性。
(1)核心文件准备
- Metadata 表格:需包含 SERIES(项目概述、作者信息)、SAMPLE(样本属性、处理条件)、PROTOCOLS(实验流程)、DATA PROCESSING(分析流程)四大模块,推荐使用 GEO 提供的 Excel 模板填写。
- 处理后数据:RNA-seq 需提交基因 / 转录本表达矩阵(CSV/TSV 格式),ChIP-seq 需提供 bigWig、bedGraph 等信号文件;文件需包含列名(样本 ID)和行名(基因名 / 探针 ID)。
- 原始数据关联:若已上传 SRA,需在 Metadata 中填写 SRA 编号,实现数据链贯通。
(2)上传关键步骤与避坑
- FTP 上传设置:Linux 用户可使用脚本
GEO_upload.sh -f ftp-private.ncbi.nlm.nih.gov -u geo -p password -t 目标目录 -s 本地目录批量上传;Windows 用户用 FileZilla 时需设置 “重试次数 99 次、超时 20 秒”,避免中断。 - Metadata 审核要点:GEO 对样本描述的 “颗粒度” 要求极高,例如 “肿瘤样本” 需细化为 “肺腺癌原发灶样本,患者年龄 65 岁,未接受过化疗”;缺少细节会导致审核驳回。
- 发布通知:上传完成后需向 geo@ncbi.nlm.nih.gov 发送邮件,注明 GEO 账号、文件存放目录及公开时间,否则数据不会进入审核流程。
3. 代码与综合数据归档:Zenodo 全功能应用
Zenodo 支持代码、补充文件、数据集等多种资源归档,且可生成永久 DOI,是顶刊推荐的 “一站式归档平台”,尤其适合代码与数据的关联存储。
(1)基础归档流程(五步完成)
- 账号准备:推荐使用 ORCID 账号登录,可自动关联研究者身份;若需托管代码,建议提前绑定 GitHub 账号。
- 文件上传:点击 “New Upload”,拖拽文件或上传 ZIP 压缩包(支持层级目录);单条记录限 100 个文件、50GB,欧盟项目可申请 200GB 配额。
- Metadata 填写:必填项包括标题(如 “NSCLC 单细胞分析代码与数据集”)、作者(含 ORCID)、描述(方法摘要)、关键词(如 “single-cell RNA-seq, NSCLC”)、许可证(推荐 CC-BY 4.0);需在 “Related identifiers” 中填写论文 DOI(如有)。
- 访问设置:可选择 “立即公开”“ embargoed access(延迟公开)”“ restricted access(授权访问)”;临床数据建议选择 “延迟公开至发表时”。
- 发布与版本控制:点击 “Publish” 后生成 DOI(如 10.5281/zenodo.1234567),文件不可修改;需更新时创建新版本,保留原 DOI 家族(如 10.5281/zenodo.1234567.v2)。
(2)GitHub 代码同步归档(顶刊优选方案)
Zenodo 与 GitHub 的整合可实现代码 “冻结版本” 与 DOI 绑定,满足 Nature 对代码可追溯性的要求:
- 在 Zenodo “Settings” 中关联 GitHub 账号,选择目标仓库;
- 在 GitHub 发布 “Release”(如 v1.0),Zenodo 会自动捕获该版本并生成 DOI;
- 在论文补充材料中同时提供 GitHub 链接与 Zenodo DOI,前者方便实时查看,后者确保版本永久可访问。
4. 伦理合规与数据脱敏:顶刊 “红线” 规避
涉及人类遗传资源、临床数据时,伦理合规是补充材料的 “一票否决项”,需严格遵循以下规范:
- 伦理文件必备:补充材料中需附加伦理委员会批准书扫描件(PDF 格式),并在正文及补充说明中注明编号(如 “Approved by UCSD IRB (IRB-123456)”)。
- 数据脱敏技术:
- 个人信息移除:删除样本 ID 与患者姓名、病历号的关联表;
- 差分隐私:通过 Python
differential-privacy库添加噪声,例如对临床指标进行随机扰动,确保个体无法被识别; - 去标识化:对基因数据中的线粒体 DNA 等身份标识位点进行过滤。
- 法规适配:国际期刊需符合 GDPR(欧盟)、HIPAA(美国),国内研究需遵守《人类遗传资源管理条例》,跨境数据传输需提前申请审批。
三、格式标准化:顶刊认可的补充材料规范
补充材料的格式直接影响评审效率,顶刊均提供明确的格式指南,需从文件命名、结构组织、图表与代码规范四方面实现标准化。
1. 文件命名:唯一标识原则
统一的命名规则可避免评审混乱,结合顶刊共性要求,推荐 “期刊前缀 + 类型 + 编号 + 版本 + 后缀” 规则,具体示例如下:
| 文件类型 | 命名示例 | 适用期刊 | 说明 |
|---|---|---|---|
| 补充表格 | S1_Table_GeneExpression.xlsx | PLOS 系列 | “S1” 为编号,“GeneExpression” 为内容说明 |
| 补充图 | SuppFig1_NeutrophilClustering.pdf | Nature 系列 | 前缀 “Supp”,包含图主题 |
| 代码压缩包 | Code_v1.0_NSCLC_Analysis.zip | 所有顶刊 | 含版本号,便于追溯 |
| SI 指南文件 | SIGuide_Document.docx | Nature 系列 | 必需文件,说明所有补充材料清单 |
禁忌:避免使用 “补充材料 1.pdf”“数据表格.xlsx” 等模糊命名;PLOS 明确禁止使用字母后缀(如 “S1a_Table.xlsx”),需合并为 “S1_Table.xlsx” 或拆分编号。
2. 结构组织:逻辑分层原则
补充材料需按 “正文关联度” 分层,便于评审快速定位信息,推荐结构如下:
- SI 指南文件(必需):单独的 TXT/Word 文件(如 SIGuide.docx),包含所有补充文件的清单、名称、内容简介及关联正文位置(如 “SuppFig1 对应正文 Fig. 2a”)。
- 补充方法(Supplementary Methods):合并为 PDF,详细描述正文未展开的实验流程(如文库构建步骤)、分析参数(如 Seurat 聚类分辨率 0.8)、软件版本(如 R 4.3.1)。
- 补充结果(Supplementary Results):配合补充图表,展开正文未详述的结果,需包含统计分析细节(如样本量 n=3、P 值 = 0.02)。
- 补充表格(Supplementary Tables):Excel/CSV 格式,按编号排序(S1 Table、S2 Table),表头需包含样本分组、检测指标等关键信息。
- 补充图表(Supplementary Figures):PDF/TIFF 格式,分辨率≥300 DPI,图注单独列于 SI 指南或图表下方。
- 代码与数据说明:包含代码托管链接、数据访问编号、运行环境说明的单独文档。
3. 图表规范:高清可解读原则
补充图表是结果的重要延伸,其规范程度直接影响评审对数据的认可度:
- 格式与分辨率:
- 矢量图优先使用 PDF/EPS 格式,位图(照片、显微镜图)使用 TIFF/JPEG,分辨率≥300 DPI;
- 热图、火山图等生信图表需保留原始数据尺度,避免过度压缩导致细节丢失。
- 编号与标注:
- 按 “SuppFigX_Y” 编号(X 为大类,Y 为子图,如 SuppFig2A、SuppFig2B);
- 坐标轴需标注名称及单位(如 “Log2 Fold Change”),图例需明确颜色 / 形状对应的分组(如 “红色 = 肿瘤组,蓝色 = 对照组”)。
- 统计标注:需在图中或图注注明统计方法(如 t 检验、ANOVA)、样本量(n)、显著性水平(*P<0.05, **P<0.01)。
4. 代码规范:可复现原则
顶刊对代码的要求已从 “可获取” 升级为 “可运行”,需满足 “环境清晰、步骤明确、注释完整” 三大标准:
(1)代码文件结构
推荐按分析流程拆分文件,示例如下:
plaintext
NSCLC_SingleCell_Analysis/
├── 01_DataQC.R # 数据质控(过滤线粒体基因、低质量细胞)
├── 02_Integration.R # 数据集整合与批次校正
├── 03_Clustering.R # 细胞聚类与注释
├── 04_DEG_Analysis.R # 差异基因分析
├── README.md # 核心说明文件
└── environment.yml # 环境配置文件
(2)README 模板(顶刊适配版)
README 需包含以下核心内容,参考 Cancer Cell 单细胞研究案例:
markdown
# NSCLC 单细胞转录组分析代码
## 1. 数据来源
- GEO编号:GSE234567(处理后表达矩阵)
- SRA编号:SRR1234567(原始测序数据)
- 代码DOI:10.5281/zenodo.1234567
## 2. 运行环境
- R版本:4.3.1
- 核心包版本:
- Seurat:4.9.9.9047
- SingleR:2.4.1
- ggplot2:3.4.4
## 3. 运行步骤
1. 下载数据至./data目录
2. 按编号顺序运行R脚本
3. 结果输出至./results目录
## 4. 关键参数说明
- 细胞过滤标准:nFeature_RNA > 200 & nFeature_RNA < 5000 & percent.mt < 5
- 聚类分辨率:resolution = 0.8
- 差异分析阈值:log2FC > 1 & adj.Pval < 0.05
(3)环境配置标准化
为避免 “版本冲突” 导致无法复现,需提供环境配置文件:
- R 环境:使用
sessionInfo()生成信息,保存为session_info.txt; - Python 环境:使用 conda 生成
environment.yml,示例如下:
yaml
name: sc_env
channels:
- bioconda
- conda-forge
dependencies:
- python=3.9
- scanpy=1.9.3
- pandas=1.5.3
- numpy=1.24.3
四、实操案例:从顶刊文献看补充材料落地
结合 2024-2025 年顶刊发表的生信研究,以 “单细胞 RNA-seq” 和 “转录组测序” 两大典型场景为例,解析补充材料与数据归档的标准操作。
案例 1:单细胞 RNA-seq 研究(Cancer Cell, IF=48.8)
研究主题为 “非小细胞肺癌组织驻留中性粒细胞的异质性分析”,整合 19 项研究的 505 份样本数据,其补充材料与数据归档堪称典范。
(1)代码归档:GitHub+Zenodo 双托管
- GitHub 仓库结构(https://github.com/icbi-lab/luca):
- 按 “数据预处理→聚类→注释→功能分析” 拆分 R 脚本,每个脚本含详细注释(如 “# 过滤线粒体基因比例 > 5% 的细胞”);
- 提供
requirements.txt列出依赖包版本,及run_all.sh批量运行脚本。
- Zenodo 归档:
- 捕获 GitHub 的 v1.0 版本,生成 DOI:10.5281/zenodo.7890123;
- 附加 “代码运行演示视频”(MP4 格式,≤10MB),展示关键步骤的操作过程。
(2)数据归档:GEO+SRA 分层存储
- GEO 归档(GSE234567):
- 提交整合后的单细胞表达矩阵(
integrated_counts.csv),含 898,422 个细胞 ×20,000 个基因; - Metadata 表格详细标注每个样本的患者信息(年龄、分期、治疗史)、测序平台(10x Genomics v3)。
- 提交整合后的单细胞表达矩阵(
- SRA 归档(PRJNA1234567):
- 按原始研究拆分 BioSample,每个样本标注 “肿瘤组织”/“癌旁组织”;
- 使用 Aspera 批量上传 FASTQ 文件,总数据量 1.2TB,审核通过时间 4 个工作日。
(3)补充材料亮点
- 补充方法中附加 “抗体面板设计表”,详细说明 12 种骨架抗体与 8 种扩展抗体的作用(如 CD45 区分白细胞,CD15 标记中性粒细胞);
- 补充表格包含 “细胞类型标记基因列表”(S1 Table)和 “差异基因富集结果”(S2 Table),均为 Excel 格式便于编辑;
- SI 指南文件清晰对应正文图表,如 “SuppFig3 对应正文 Fig. 2d,展示中性粒细胞亚群的时空分布”。
案例 2:转录组测序研究(PLOS Biology, IF=8.029)
研究主题为 “热处理对鸡胚胎下丘脑基因表达的调控机制”,其 SRA 数据归档流程具有普适性。
(1)SRA 提交完整流程
- 元数据准备:
- BioProject 标题:“Heat stress regulates hypothalamic gene expression in chicken embryos”;
- BioSample 表格包含 12 个样本(3 个发育阶段 ×2 处理 ×2 重复),标注 “E18_Hypothalamus_Heat_01” 等名称。
- 测序信息填写:
- 仪器型号:Illumina HiSeq X Ten;
- 文库策略:RNA-Seq,文库选择:polyA 富集;
- 读长:150bp 双端测序。
- 数据上传:
- 单文件大小 20GB,使用 FileZilla 上传,设置 “断点续传” 避免中断;
- 上传后校验 MD5 值,确保与本地文件一致。
- 审核与修改:
- 首次审核被驳回,原因是 “样本处理条件描述模糊”;
- 补充 “热处理具体参数(42℃,2 小时)” 后重新提交,2 个工作日通过。
(2)补充材料规范要点
- 文件命名严格遵循 PLOS 规则:S1_Table_ExpressionMatrix.xlsx、S1_Fig_Heatmap.pdf;
- 补充图表中热图使用 TIFF 格式,分辨率 600 DPI,颜色条标注表达量范围(Log2 (TPM+1));
- 代码托管于 GitHub,README 包含 “DESeq2 差异分析参数”(padj < 0.05, log2FC > 1)及 “火山图绘制代码”。
五、避坑指南与工具推荐:提升顶刊通过率
1. 常见错误与解决方案
| 错误类型 | 顶刊拒稿风险 | 解决方案 |
|---|---|---|
| 数据未公开或编号无效 | 高 | 提交前验证数据库链接,设置 “发表后公开” |
| 代码缺少环境说明 | 中 | 提供 conda 环境文件或 Docker 镜像 |
| 补充表格格式混乱 | 中 | 使用 Excel 模板,表头包含样本分组与指标说明 |
| 伦理文件缺失 | 极高 | 提前获取伦理审批,补充编号与批准书扫描件 |
| 文件命名不规范 | 低 | 按 “期刊前缀 + 类型 + 编号” 统一命名 |
2. 高效工具推荐
- 数据上传工具:Aspera Connect(高速上传)、FileZilla(断点续传)、lftp(Linux 批量上传);
- 格式检查工具:FastQC(测序数据质量)、MD5Checker(文件完整性校验)、Zenodo Metadata Validator(元数据合规性);
- 代码规范工具:Black(Python 代码格式化)、styler(R 代码美化)、Docker(环境容器化);
- 图表制作工具:Adobe Illustrator(矢量图编辑)、ggplot2(生信图表)、BioRender(通路图)。
结语
生信论文的补充材料早已超越 “附加内容” 的范畴,成为顶刊评判研究科学性的核心依据。从顶刊规范拆解到数据归档落地,从格式标准化到案例实操,本文构建的全流程体系核心在于 “以可复现为目标,以期刊要求为准则”。研究者需在实验设计阶段即规划数据存储与补充材料框架,避免投稿前仓促补救。遵循本文规范,不仅能提升顶刊通过率,更能推动生信研究的透明化与可重复性发展。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)