原文链接:
https://www.analyticsvidhya.com/blog/2021/08/load-dataset-directly-into-colab-from-anywhere-on-the-browser-using-curlwget-extension/

在 Colab 加载数据的一些问题

将本地设备上的数据上传到服务器。在 Colab 中上传数据速度相对较慢,从Google Drive中加载同样面临这样的问题,同时,当使用公开数据集时,Google Drive需要将数据集先上传至再加载,无疑需要增加更多的时间和操作。

CurlWget 扩展插件介绍

由于 Google Colab 托管在基于 Linux 的服务器上,我们可以使用一些基本的 Linux 命令。CurlWget 是一个小型插件,它可以帮助我们在像 Google Colab 这样的纯控制台会话中复制/粘贴 curlwget 命令行字符串。
在这里插入图片描述

CurlWget 插件安装

  1. 点击此处进入扩展程序页面,并将扩展程序添加到 Chrome 浏览器。

  2. 固定扩展坞。固定扩展坞之后才能继续使用它。
    在这里插入图片描述

如果不使用扩展程序直接加载数据集,要做到这一点,首先需要将数据集下载到本地系统,然后再将其上传到 Colab,这会耗费大量时间。

使用 CurlWget 加载数据步骤

  1. 以 Microsoft 恶意软件数据集(数据链接)为例,点击“全部下载”以获取完整数据集。选择您要上传的数据集,然后按照步骤操作。
    在这里插入图片描述
  2. 当看到数据开始下载的时候,浏览器右上角显示下载进度的时候,点击取消下载(因为这个时候 CurlWget 插件已经自动捕获到了下载链接
    在这里插入图片描述
  3. 取消下载后,点击之前固定的 CurlWget 扩展程序,你会看到一些文字,点击灰色框内;点击后,所有文字都会自动被选中,复制这段 wget 指令

在这里插入图片描述

  1. 现在在 colab 中添加一个空白代码单元格,输入“!”,然后粘贴从扩展程序复制的wget指令(不要在“!”和您复制的文本之间留空格),然后运行该单元格。
    在这里插入图片描述
  2. 这样,您的文件/文件夹已直接上传到 Google Colab 的磁盘存储中。
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐