Python 机器学习

2018年3天快速入门python机器学习【黑马程序员】

(一) 鸢尾花数据集

数据集的构成:
  • 特征值
  • 目标值

使用sklearn库,需要先自行下载,常用如下两类方法获取数据集

  • 1.load_* 方法 获取小规模的数据集
  • 2.fetch_* 获取大规模的数据集
1.获取鸢尾花数据集

首先导入要使用的模块

from sklearn.datasets import load_iris

然后获取我们要用的数据集

iris = load_iris()

通过以下命令查看数据集的内容

print("鸢尾花数据集:\n", iris)
print("查看数据集描述:\n", iris["DESCR"])
print("查看特征值的名字:\n", iris.feature_names)
print("查看特征值:\n", iris.data, iris.data.shape)
2.数据集的划分
  • 训练数据:用于训练,构建模型
  • 测试数据:在模型检验时使用,用于评估模型是否有效
    使用到了sklearn.model_selection.train_test_split(arrays, *options)方法
    此方法将 样本数据分为训练集和测试集,返回四个参数
  • 训练集特征值
  • 测试集特征值
  • 训练集目标值
  • 测试集目标值

参数的设置
test_size 设置测试集的大小,形式通常为浮点数
random_state 随机数种子

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print('训练集的特征值:\n', x_train, x_train.shape)

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐