机器学习(一) 鸢尾花数据集

Joker-Tong

1301人浏览 · 2020-02-03 14:40:59

Joker-Tong · 2020-02-03 14:40:59 发布

Python 机器学习

2018年3天快速入门python机器学习【黑马程序员】

(一) 鸢尾花数据集

数据集的构成:

特征值
目标值

使用sklearn库,需要先自行下载,常用如下两类方法获取数据集

1.load_* 方法获取小规模的数据集
2.fetch_* 获取大规模的数据集

1.获取鸢尾花数据集

首先导入要使用的模块

from sklearn.datasets import load_iris

然后获取我们要用的数据集

iris = load_iris()

通过以下命令查看数据集的内容

print("鸢尾花数据集：\n", iris)
print("查看数据集描述：\n", iris["DESCR"])
print("查看特征值的名字：\n", iris.feature_names)
print("查看特征值：\n", iris.data, iris.data.shape)

2.数据集的划分

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效
使用到了sklearn.model_selection.train_test_split(arrays, *options)方法
此方法将样本数据分为训练集和测试集,返回四个参数
训练集特征值
测试集特征值
训练集目标值
测试集目标值

参数的设置
test_size 设置测试集的大小,形式通常为浮点数
random_state 随机数种子

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print('训练集的特征值:\n', x_train, x_train.shape)

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模