近来某高校的本科学生要参加省软件设计大赛的人工智能赛题,结果医学方面的学生专业知识很够,但是不熟悉一些基本流程,写了个图像标注有关的方案,简单说明一下,顺便发个技术博客吧。

🧰 推荐工具:LabelMe 中文版

安装命令:

pip install labelme
labelme

✅ 标注流程(适用于菌落图像)

第一步:准备

  • 建议使用 .jpg 图像,放在 images/ 文件夹中
  • 每张图命名规范:如 ecoli_001.jpg
  • 创建一个空文件夹 annotations/ 用于存放标注文件
准备阶段:切记做好初始标准统一
  • 所有标注者先练习同样的5张图像
  • 团队内部讨论:
    • 哪些算菌落?
    • 多大才标?
    • 粘连怎么标?
    • 类别命名:建议使用英文统一(如 ecoli, staph

第二步:开始标注

  1. 启动 labelme → 打开一张图片
  2. 点击“多边形工具” → 沿菌落边缘绘制封闭区域
  3. 输入类别名(如 大肠杆菌,可统一用英文/拼音:ecoli
  4. 重复标注多个菌落
  5. 保存,自动生成 .json 文件,放在 annotations/ 文件夹

第三步:转换格式(用于训练)

labelme_json_to_dataset annotations/ecoli_001.json

输出内容包括:

  • img.png:原图
  • label.png:彩色mask图(每种菌类一个颜色)
  • label_names.txt:标签列表

👥 多人标注一致性方案(建议三人制)

角色分配:

角色 说明
A 标注员 负责第一轮绘制和命名
B 审核员 检查是否遗漏、错误命名
C 终审/融合员 再次确认,最终保存定稿

要点:

  • 提前统一标签列表(如使用 ecolistaph 等)
  • 所有人使用同一套 LabelMe 软件和默认配置
  • 每次标注前先做3张样例图测试 → 三人对比 → 校准标准
  • 发现争议时,由 C 统一定夺

🎯 目标

  • 控制标注误差
  • 保证模型训练数据的有效性

✅ 评估方法

项目 方法 指标
分割一致性 IoU(交并比) ≥ 0.85
分类一致性 Cohen’s Kappa ≥ 0.8

🧑‍⚖️ 复审机制

角色 职责
A/B 各自标注
C 对比IoU + Kappa,发现异常图像 → 复审重标或融合

📈 一致性记录表(Excel)

图像 A标注 B标注 IoU均值 Kappa值 复查结果
ecoli_001 小张 小王 0.91 0.84 ✔️
ecoli_002 小李 小王 0.63 0.59 ❌重标

⚠️ 新手注意事项

问题 建议
标签拼写不一致 建议用英文+统一模板,如 ecolistaph
画多边形不封闭 每次闭环时点在起点上,出现黄色高亮表示闭合
菌落重叠怎么办 重叠也要单独标,每个菌落一套多边形
类别不清楚怎么办 unknown 标签代替,后期可补标
图片太多 每人标注10–15张即可,后续模型可自动扩展

📦 文件结构建议

project/
├── images/               # 原始图像
├── annotations/          # .json标注文件
├── datasets/             # 输出的训练格式(mask等)
├── label_names.txt       # 标签名列表
└── log.xlsx              # 标注进度记录(建议用表格管理)

📝 标注日志表建议(可用Excel)

文件名 标注人 审核人 类别数量 审核备注
ecoli_001.jpg A同学 B同学 3类 完整
staph_002.jpg B同学 A同学 2类 建议重命名

🎯 最终目标(第一阶段)

  • 完成 10–20 张高质量菌落标注图像
  • 至少 3–5 个菌种标签
  • 所有图像通过审核,准备训练分割模型

最终菌群种类和数据取决于你的业务场景、实际能力和可用时间

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐