机器学习(一) 鸢尾花数据集
·
Python 机器学习
(一) 鸢尾花数据集
数据集的构成:
- 特征值
- 目标值
使用sklearn库,需要先自行下载,常用如下两类方法获取数据集
- 1.load_* 方法 获取小规模的数据集
- 2.fetch_* 获取大规模的数据集
1.获取鸢尾花数据集
首先导入要使用的模块
from sklearn.datasets import load_iris
然后获取我们要用的数据集
iris = load_iris()
通过以下命令查看数据集的内容
print("鸢尾花数据集:\n", iris)
print("查看数据集描述:\n", iris["DESCR"])
print("查看特征值的名字:\n", iris.feature_names)
print("查看特征值:\n", iris.data, iris.data.shape)
2.数据集的划分
- 训练数据:用于训练,构建模型
- 测试数据:在模型检验时使用,用于评估模型是否有效
使用到了sklearn.model_selection.train_test_split(arrays, *options)方法
此方法将 样本数据分为训练集和测试集,返回四个参数 - 训练集特征值
- 测试集特征值
- 训练集目标值
- 测试集目标值
参数的设置
test_size 设置测试集的大小,形式通常为浮点数
random_state 随机数种子
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print('训练集的特征值:\n', x_train, x_train.shape)
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)