python图像分类项目-01创建自己的数据集

机器学习初学者学习日志-图像分类项目01

Karry12138

1786人浏览 · 2023-01-17 23:00:40

Karry12138 · 2023-01-17 23:00:40 发布

项目教程及代码来自：同济子豪兄

https://github.com/TommyZihao/Train_Custom_Dataset

https://www.bilibili.com/video/BV1Jd4y1T7rw

一、知识总结

1.收集图像

使用爬虫代码从百度下载图片，并配合os模块将图片分文件夹保存在本地。

2.删除多余文件

在保存图片时系统会生成.__MACOSX、.DS_Store文件,jupyter也会生成.ipynb_checkpoints文件。此外，爬虫时可能还会获取.gif文件，这些文件是opencv不能识别，需删去的。

3.(可选)统计图像尺寸、比例分布

4.划分训练集与测试集

一般为训练集4:测试集1

5.(可选)可视化文件夹图像+统计图像数量

二、感悟

我是个初识机器学习的小白，由于mac电脑上有anaconda的jupyter，就想试试能不能在自己的电脑上运行下子豪大佬的代码…..然后就被环境配置爆杀了好几个小时…不过最终还是把代码都跑通了一遍，有种小小的成就感。（相比之下子豪佬推荐的完全配好环境的平台太好用了呜呜呜）

在获取图片的部分，用子豪佬师兄传下来的代码浅爬了3200张图片，花了整整一个小时才爬取完毕，给我的内心带来了一点小震撼。不过爬虫的函数都已经封装好了，之后可以自己去爬一些感兴趣的图片了。

从子豪佬那下载fruit81_full数据集后，我完整体验了划分训练-测试集，可视化以及统计的过程。统计个类别图像数量时绘制的图，在我看来相当美丽。

不过mac上只有amd显卡，不能用cuda，后面训练模型时估计还得转GPU平台。之后有空时试试把打游戏的3060笔记本拿过来用吧，就是得全部重配一遍环境[趴]。

三、日志

环境：mac anaconda jupyter python3.7

1.安装opencv-python库

关于导入：anaconda的环境设置里查询不到opencv-python,需要手动下。

https://blog.csdn.net/weixin_43863869/article/details/115309959

创建数据集相当费时。运行爬虫示例代码，仅从百度爬取18类每类200张的瓜果图片，就花费了约1小时。

2.安装wget包

运行B4步骤下载数据集压缩包时报错

zsh:1: command not found: wget

——没有wget包

https://blog.csdn.net/qq_44664231/article/details/126062112

依据此链接前往homebrew官网安装homebrew后装上依赖

2.安装wget包—>安装homebrew

输入安装链接（在加速了github的情况下）报错

curl: (60) SSL certificate problem: unable to get local issuer certificate

More details here: https://curl.haxx.se/docs/sslcerts.html

curl failed to verify the legitimacy of the server and therefore could not

establish a secure connection to it. To learn more about this situation and

how to fix it, please visit the web page mentioned above.

https://stackoverflow.com/questions/38078473/homebrew-curl-60-ssl-certificate-unable-to-get-local-issuer-certificate

依据⬆️网页，将-fsSL改为-fsSLk，跳过此次证书认证

/bin/bash -c "$(curl -fsSLk https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

完成安装homebrew与homebrew-core

3.为matplotlib设置中文字体

运行步骤E2，设置中文字体

https://www.ngui.cc/51cto/show-727683.html?action=onClick

(修改文件时用的是vim编辑器)

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

如何使用AutoDL平台进行深度学习训练——详细步骤指南

魔乐社区

大数据毕业设计选题推荐-基于大数据的农作物产量数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData

魔乐社区

大模型推理适配实战：手把手带你完成vLLM Ascend迁移实操

魔乐社区

所有评论(0)

查看更多评论

Karry12138

@Karry12138

已为社区贡献1条内容