前言:Hugging Face作为全球知名的AI模型和数据集共享平台,拥有海量的资源可供开发者使用。然而,由于网络环境等因素的影响,国内开发者在直接访问Hugging Face官网下载模型和数据集时,往往会遇到速度慢甚至无法下载的问题。为了帮助国内AI开发者解决这一难题,Hugging Face的国内镜像站点应运而生。这些镜像站点通过在国内部署服务器,加速了模型和数据集的下载速度,极大地提高了开发效率。

环境:Linux系统

方案一:使用huggingface-cli命令行工具

  1. 安装依赖:首先需要安装huggingface_hub库,确保版本在0.17.0以上,推荐0.19.0+。安装命令为pip install -U huggingface_hub

  2. 设置环境变量:在Linux系统中,使用export HF_ENDPOINT=https://hf-mirror.com;在Windows Powershell中,使用$env:HF_ENDPOINT = "https://hf-mirror.com"。建议将此环境变量写入~/.bashrc文件中,以便长期生效。

  3. 下载模型和数据集:使用huggingface-cli download命令进行下载。例如,下载gpt2模型的命令为huggingface-cli download --resume-download gpt2 --local-dir gpt2;下载wikitext数据集的命令为huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext。其中,--resume-download参数可实现断点续传,--local-dir参数用于指定本地存储路径。

方案二:使用hfd专用下载工具

  1. 下载hfd脚本:通过命令wget https://hf-mirror.com/hfd/hfd.sh下载hfd脚本,并使用chmod a+x hfd.sh命令赋予其执行权限。

  2. 设置环境变量:与方案一相同,设置HF_ENDPOINT环境变量为https://hf-mirror.com

  3. 下载模型和数据集:使用./hfd.sh命令进行下载。例如,下载gpt2模型的命令为./hfd.sh gpt2;下载wikitext数据集的命令为./hfd.sh wikitext --dataset。hfd工具基于aria2实现,支持多线程下载,可有效提高下载速度。

方案三:网页下载

  1. 访问镜像站点:直接访问国内Hugging Face镜像站点,如https://hf-mirror.com/https://huggingface.lolicp.com

  2. 搜索模型或数据集:在镜像站点的搜索栏中输入所需的模型或数据集名称,进入对应的主页。

  3. 下载文件:在模型或数据集主页的Files and Version部分,找到所需的文件并点击下载。此方法适合对下载过程有直观操作需求的开发者。

方案四:使用环境变量(非侵入式)

  1. 设置环境变量:在运行Python脚本时,通过设置HF_ENDPOINT环境变量来指定镜像站点。例如,在Linux系统中,使用HF_ENDPOINT=https://hf-mirror.com python your_script.py;在Windows系统中,使用$env:HF_ENDPOINT = "https://hf-mirror.com"

  2. 运行脚本:运行包含Hugging Face模型或数据集加载代码的Python脚本。脚本会自动从指定的镜像站点下载所需的资源。此方法无需修改脚本代码,适用于已有项目的快速适配。

方案五:使用ModelScope

  1. 访问ModelScope:ModelScope是一个提供丰富AI模型和数据集的平台,其地址为https://www.modelscope.cn/home

  2. 搜索和下载:在ModelScope平台上搜索所需的模型或数据集,并按照平台提供的下载方式获取资源。ModelScope作为国内知名的AI资源平台,与Hugging Face镜像站点相互补充,为开发者提供了更多选择。

方案六:使用上海交通大学AIShell镜像

  1. 访问镜像站点:上海交通大学提供的AIShell镜像站点支持多种AI框架及相关资源的加速下载,其中包括Hugging Face的模型。访问上海交通大学的相关网站或搜索“上海交通大学AIShell镜像”获取具体URL。

  2. 下载资源:在AIShell镜像站点中找到所需的Hugging Face模型或数据集,并按照站点提供的下载方式进行操作。该镜像站点由高校提供,具有较高的稳定性和可靠性。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐