解决HuggingFace数据集下载慢的方案

终端:Windows WSL(Ubuntu 22.04)
方案:VPN+hfd.sh+aria2c

实测14.5GB数据集下载耗时:

  • VPN直连:149kb/s
  • VPN+hfd.sh+aria2c:28MB/s,约7分钟30秒
    建议根据实际网络环境选择工具组合。
使用VPN加速下载
自行解决
调用hfd.sh脚本工具

使用参考:使用hfd工具快速下载huggingface模型权重-应该是目前最快的
hfd.sh脚本支持多线程下载和自动重试。安装后通过环境变量配置镜像源:

wget https://hf-mirror.com/hfd/hfd.sh

chmod a+x hfd.sh

export HF_ENDPOINT=https://hf-mirror.com

./hfd.sh 模型名称 --tool aria2c -x 16
aria2c断点续传方案

aria2安装参考:Ubuntu 安装Aria2 、配置开机启动
安装aria2后使用以下命令实现分块下载:

./hfd.sh 数据集名称 --hf_username xxxx --hf_token xxxx --dataset --tool aria2c -x 10

在这里插入图片描述
在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐