python图像分类项目-01创建自己的数据集
机器学习初学者学习日志-图像分类项目01
项目教程及代码来自:同济子豪兄
https://github.com/TommyZihao/Train_Custom_Dataset
https://www.bilibili.com/video/BV1Jd4y1T7rw
一、知识总结
1.收集图像
使用爬虫代码从百度下载图片,并配合os模块将图片分文件夹保存在本地。
2.删除多余文件
在保存图片时系统会生成.__MACOSX、.DS_Store文件,jupyter也会生成.ipynb_checkpoints文件。此外,爬虫时可能还会获取.gif文件,这些文件是opencv不能识别,需删去的。
3.(可选)统计图像尺寸、比例分布
4.划分训练集与测试集
一般为训练集4:测试集1
5.(可选)可视化文件夹图像+统计图像数量
二、感悟
我是个初识机器学习的小白,由于mac电脑上有anaconda的jupyter,就想试试能不能在自己的电脑上运行下子豪大佬的代码…..然后就被环境配置爆杀了好几个小时…不过最终还是把代码都跑通了一遍,有种小小的成就感。(相比之下子豪佬推荐的完全配好环境的平台太好用了呜呜呜)
在获取图片的部分,用子豪佬师兄传下来的代码浅爬了3200张图片,花了整整一个小时才爬取完毕,给我的内心带来了一点小震撼。不过爬虫的函数都已经封装好了,之后可以自己去爬一些感兴趣的图片了。
从子豪佬那下载fruit81_full数据集后,我完整体验了划分训练-测试集,可视化以及统计的过程。统计个类别图像数量时绘制的图,在我看来相当美丽。
不过mac上只有amd显卡,不能用cuda,后面训练模型时估计还得转GPU平台。之后有空时试试把打游戏的3060笔记本拿过来用吧,就是得全部重配一遍环境[趴]。
三、日志
环境:mac anaconda jupyter python3.7
1.安装opencv-python库
关于导入:anaconda的环境设置里查询不到opencv-python,需要手动下。
https://blog.csdn.net/weixin_43863869/article/details/115309959
创建数据集相当费时。运行爬虫示例代码,仅从百度爬取18类每类200张的瓜果图片,就花费了约1小时。
2.安装wget包
运行B4步骤下载数据集压缩包时报错
zsh:1: command not found: wget
——没有wget包
https://blog.csdn.net/qq_44664231/article/details/126062112
依据此链接前往homebrew官网安装homebrew后装上依赖
2.安装wget包—>安装homebrew
输入安装链接(在加速了github的情况下)报错
curl: (60) SSL certificate problem: unable to get local issuer certificate
More details here: https://curl.haxx.se/docs/sslcerts.html
curl failed to verify the legitimacy of the server and therefore could not
establish a secure connection to it. To learn more about this situation and
how to fix it, please visit the web page mentioned above.
依据⬆️网页,将-fsSL改为-fsSLk,跳过此次证书认证
/bin/bash -c "$(curl -fsSLk https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
完成安装homebrew与homebrew-core
3.为matplotlib设置中文字体
运行步骤E2,设置中文字体
https://www.ngui.cc/51cto/show-727683.html?action=onClick
(修改文件时用的是vim编辑器)

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)