主动学习和贝叶斯优化 - smartly collect data

1· Least Confident：看到上上图可以理解，LC会通过当前的model计算整个X_pool中最靠近分界线的data，也就是分为两类概率相同/接近的data，即最uncertainty的就是最先选择的。若未达到停止标准，则继续利用查询策略选择需要被标记的样本并进行人工标注，循环第4-5-6步，直到达到停止标准（这个准则可以是迭代次数，也可以是准确率等指标达到设定值例如模型精度超过99%

zbdx不知名菜鸡

1060人浏览 · 2024-09-10 14:09:16

zbdx不知名菜鸡 · 2024-09-10 14:09:16 发布

1.small data做机器学习

复杂的模型容易出现过拟合。

随机森林、xgoost等适用于较小data。

线性回归适用于更少的data。

But 在化学这种方面只能做实验获取data，并且人工标注耗费时间。所以想寻找一个能获取最少label的data的方法。

2.Active Learning 主动学习 - 拿到的是最小数据集

源码

核心内容：通过选择更有效的数据，用更少的data实现更好的acc。

比如c的data就比b的data更有效，更接近真实的分界线。

流程图：uncertainty的理解是关键。

三、手搓代码

思路：

1）首先在未标记的数据集中选取少量样本进行标注，构成训练集；

2）选取训练模型，使用少量标注样本的训练集对模型进行训练，此时模型的性能不高；

3）使用训练好的模型预测未标注的样本；

4）定义查询策略，根据策略返回未标注样本的优先级评分，选择出的需要标注的数据，进行人工标注；

5）将新选择的数据加入到训练集中更新训练集，使用更新后的训练集来训练模型；

6）判断模型是否达到停止准则？若未达到停止标准，则继续利用查询策略选择需要被标记的样本并进行人工标注，循环第4-5-6步，直到达到停止标准（这个准则可以是迭代次数，也可以是准确率等指标达到设定值例如模型精度超过99%），表示模型已训练好可以应用。

策略包括：

1· Least Confident：看到上上图可以理解，LC会通过当前的model计算整个X_pool中最靠近分界线的data，也就是分为两类概率相同/接近的data，即最uncertainty的就是最先选择的。然后把选好的data组成一个data set，就构成了需要最少label的数据集。所以只要是能度量uncertainty的模型都能用这个AL的方法。

2· Query-by-committee：用之前data训练出多个不同model，然后互相找出意见最不一样的点，作为uncertainty的度量。

四、贝叶斯优化

已经train完了，用于大模型调整超参数，即神经网络这种黑盒模型无法数学表达出参数。比网格搜索和随机搜索更高效。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r