huggingface下载数据集慢的解决办法
脚本支持多线程下载和自动重试。终端:Windows WSL(Ubuntu 22.04)方案:VPN+hfd.sh+aria2c。
·
解决HuggingFace数据集下载慢的方案
终端:Windows WSL(Ubuntu 22.04)
方案:VPN+hfd.sh+aria2c
实测14.5GB数据集下载耗时:
- VPN直连:149kb/s
- VPN+hfd.sh+aria2c:28MB/s,约7分钟30秒
建议根据实际网络环境选择工具组合。
使用VPN加速下载
自行解决
调用hfd.sh脚本工具
使用参考:使用hfd工具快速下载huggingface模型权重-应该是目前最快的hfd.sh脚本支持多线程下载和自动重试。安装后通过环境变量配置镜像源:
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh
export HF_ENDPOINT=https://hf-mirror.com
./hfd.sh 模型名称 --tool aria2c -x 16
aria2c断点续传方案
aria2安装参考:Ubuntu 安装Aria2 、配置开机启动
安装aria2后使用以下命令实现分块下载:
./hfd.sh 数据集名称 --hf_username xxxx --hf_token xxxx --dataset --tool aria2c -x 10


魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)