HNU数据挖掘实验手册

Morr0w

674人浏览 · 2024-04-08 01:10:16

Morr0w · 2024-04-08 01:10:16 发布

数据挖掘实验手册

实验一

实验要求：在Linux平台下安装、配置python环境和相关软件。具体如下：

安装虚拟机和Linux平台，熟悉Ubuntu环境。
在Linux平台上搭建Python平台，并安装Python环境工具anaconda.
掌握Anaconda下的Python环境安装，创建名称为emoji的python3.7环境.
熟练安装pycharm和jupyter notebook。
掌握pip和conda命令安装常用软件包。比如numpy、pandas、tensorflow、 h5py、mygene matplotlib、seaborn、umap-learn等。

实验操作：

已有真机archlinux，只叙述可行操作，安装qemu和KVM创建虚拟机，从iso启功即可
```
paru -S qemu KVM
```
python是Linux核心组件，都有python程序，安装anaconda即可
```
paru -S anaconda
```
激活conda环境，最后参数为用户，默认当前用户；创建emoji虚拟环境
```
source /opt/anaconda/bin/activate root
conda create -n emoji python=3.7
```
安装pycharm，版本自定
```
paru -S pycharm
```

通过pip或conda安装软件包

conda install [package name]
pip install [package name]

实验二

实验要求：在Linux平台下emogi环境中，进行数据降维与可视化。具体如下：

熟悉基本的数据预处理方法，对数据进行初步降维，降维到500-1000之内，降维方法可以自由选择。
熟练掌握无监督数据降维方法，比如PCA，ICA、UMap等
在不同的维度下面对数据进行数据分布分析及可视化比较。
实现数据的可视化，并进行适当的对比分析。

实验操作：

通过方差阈值对行进行筛选，降至500-1000即可

# 设置方差阈值
variance_threshold = 0.032  # 根据需要调整阈值

通过PCA对数据进行降维

n_components = 25  # 选择要降维到的维度
pca = PCA(n_components=n_components)
data_reduced = pca.fit_transform(data)

画出数据对应的柱状图和点状图

data_mean = data.mean()
data_mean.index = data.columns
data_mean.plot(kind='bar')
plt.xlabel('Data Category')
plt.ylabel('Mean Value')
plt.title('Comparison of Mean Values')
plt.xticks(rotation=90)
plt.show()

plt.scatter(data_reduced[0, :], data_reduced[1, :], alpha=0.5)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA Projection')
plt.show()

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模