HNU数据挖掘实验手册
·
数据挖掘实验手册
实验一
**实验要求:**在Linux平台下安装、配置python环境和相关软件。具体如下:
-
安装虚拟机和Linux平台,熟悉Ubuntu环境。
-
在Linux平台上搭建Python平台,并安装Python环境工具anaconda.
-
掌握Anaconda下的Python环境安装,创建名称为emoji的python3.7环境.
-
熟练安装pycharm和jupyter notebook。
-
掌握pip和conda命令安装常用软件包。比如numpy、pandas、tensorflow、 h5py、mygene matplotlib、seaborn、umap-learn等。
实验操作:
-
已有真机archlinux,只叙述可行操作,安装qemu和KVM创建虚拟机,从iso启功即可
paru -S qemu KVM -
python是Linux核心组件,都有python程序,安装anaconda即可
paru -S anaconda -
激活conda环境,最后参数为用户,默认当前用户;创建emoji虚拟环境
source /opt/anaconda/bin/activate root conda create -n emoji python=3.7 -
安装pycharm,版本自定
paru -S pycharm -
通过pip或conda安装软件包
conda install [package name] pip install [package name]
实验二
实验要求:在Linux平台下emogi环境中,进行数据降维与可视化。具体如下:
-
熟悉基本的数据预处理方法,对数据进行初步降维,降维到500-1000之内,降维方法可以自由选择。
-
熟练掌握无监督数据降维方法,比如PCA,ICA、UMap等
-
在不同的维度下面对数据进行数据分布分析及可视化比较。
-
实现数据的可视化,并进行适当的对比分析。
实验操作:
- 通过方差阈值对行进行筛选,降至500-1000即可
# 设置方差阈值
variance_threshold = 0.032 # 根据需要调整阈值
- 通过PCA对数据进行降维
n_components = 25 # 选择要降维到的维度
pca = PCA(n_components=n_components)
data_reduced = pca.fit_transform(data)
- 画出数据对应的柱状图和点状图
data_mean = data.mean()
data_mean.index = data.columns
data_mean.plot(kind='bar')
plt.xlabel('Data Category')
plt.ylabel('Mean Value')
plt.title('Comparison of Mean Values')
plt.xticks(rotation=90)
plt.show()
plt.scatter(data_reduced[0, :], data_reduced[1, :], alpha=0.5)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA Projection')
plt.show()
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)