在colab中加载任意在线(链接)数据集
本文介绍使用CurlWget浏览器插件直接在Google Colab中加载数据集的方法,避免传统方式需先下载到本地再上传的低效流程。该插件通过捕获浏览器下载链接,生成wget命令,用户只需在Colab单元格粘贴命令即可快速下载数据。具体步骤包括:安装插件、取消实际下载获取链接、复制wget命令到Colab执行。这种方法显著提升了数据加载效率,尤其适用于处理大型公开数据集.
·
在 Colab 加载数据的一些问题
将本地设备上的数据上传到服务器。在 Colab 中上传数据速度相对较慢,从Google Drive中加载同样面临这样的问题,同时,当使用公开数据集时,Google Drive需要将数据集先上传至再加载,无疑需要增加更多的时间和操作。
CurlWget 扩展插件介绍
由于 Google Colab 托管在基于 Linux 的服务器上,我们可以使用一些基本的 Linux 命令。CurlWget 是一个小型插件,它可以帮助我们在像 Google Colab 这样的纯控制台会话中复制/粘贴 curl 或 wget 命令行字符串。
CurlWget 插件安装
-
点击此处进入扩展程序页面,并将扩展程序添加到 Chrome 浏览器。
-
固定扩展坞。固定扩展坞之后才能继续使用它。

如果不使用扩展程序直接加载数据集,要做到这一点,首先需要将数据集下载到本地系统,然后再将其上传到 Colab,这会耗费大量时间。
使用 CurlWget 加载数据步骤
- 以 Microsoft 恶意软件数据集(数据链接)为例,点击“全部下载”以获取完整数据集。选择您要上传的数据集,然后按照步骤操作。

- 当看到数据开始下载的时候,浏览器右上角显示下载进度的时候,点击取消下载(因为这个时候 CurlWget 插件已经自动捕获到了下载链接)

- 取消下载后,点击之前固定的 CurlWget 扩展程序,你会看到一些文字,点击灰色框内;点击后,所有文字都会自动被选中,复制这段
wget指令

- 现在在 colab 中添加一个空白代码单元格,输入“!”,然后粘贴从扩展程序复制的wget指令(不要在“!”和您复制的文本之间留空格),然后运行该单元格。

- 这样,您的文件/文件夹已直接上传到 Google Colab 的磁盘存储中。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)