hugging face下载数据集报错Loading a dataset cached in a LocalFileSystem is not supported解决方案
最近在微调qwen-2.5-3B模型时遇到一些问题,后续会陆续总结到这篇文章中。
·
最近在微调qwen-2.5-3B模型时遇到一些问题,后续会陆续总结到这篇文章中。
数据集下载报错Loading a dataset cached in a LocalFileSystem is not supported
报错界面如下
NotImplementedError Traceback (most recent call last)
Cell In[10], line 4
1 from datasets import load_dataset
3 # Login using e.g. `huggingface-cli login` to access this dataset
----> 4 ds = load_dataset("bespokelabs/Bespoke-Stratos-17k",cache_dir = './data/reasoning')
File ~/miniconda3/lib/python3.12/site-packages/datasets/load.py:2143, in load_dataset(path, name, data_dir, data_files, split, cache_dir, features, download_config, download_mode, verification_mode, ignore_verifications, keep_in_memory, save_infos, revision, token, use_auth_token, task, streaming, num_proc, storage_options, **config_kwargs)
2139 # Build dataset for splits
2140 keep_in_memory = (
2141 keep_in_memory if keep_in_memory is not None else is_small_dataset(builder_instance.info.dataset_size)
2142 )
-> 2143 ds = builder_instance.as_dataset(split=split, verification_mode=verification_mode, in_memory=keep_in_memory)
2144 # Rename and cast features to match task schema
2145 if task is not None:
2146 # To avoid issuing the same warning twice
File ~/miniconda3/lib/python3.12/site-packages/datasets/builder.py:1173, in DatasetBuilder.as_dataset(self, split, run_post_process, verification_mode, ignore_verifications, in_memory)
1171 is_local = not is_remote_filesystem(self._fs)
1172 if not is_local:
-> 1173 raise NotImplementedError(f"Loading a dataset cached in a {type(self._fs).__name__} is not supported.")
1174 if not os.path.exists(self._output_dir):
1175 raise FileNotFoundError(
1176 f"Dataset {self.dataset_name}: could not find data in {self._output_dir}. Please make sure to call "
1177 "builder.download_and_prepare(), or use "
1178 "datasets.load_dataset() before trying to access the Dataset object."
1179 )
NotImplementedError: Loading a dataset cached in a LocalFileSystem is not supported
这是通过hugging face下载数据集时报错的问题,博主碰到这个问题后找了很多方法,最终通过更新fsspec到适配datasets的版本解决,这里总结一下博主找到的相关方法
更新datasets版本
可能由于fsspec版本已经更新到最新,但datasets未更新导致,可以通过在终端使用下述命令更新datasets解决
pip install -U datasets
更新fsspec版本
如果更新datasets后没有用,可以通过更新fsspec来尝试解决,可以先安装一个低版本的fsspec包来引导终端报错(会输出推荐安装的fsspec版本),例如
pip install fsspec==2023.9.2
如果程序报错,此时可以通过报错查看合适版本,如果没有报错,可以直接尝试重新下载数据集
清除缓存
如果上述方法都没有用,可以尝试清除之前缓存重新下载
首先在终端查看当前目录下的文件
ls -a
此时会显示部分隐藏文件和你存数据的文件,将相应文件删除即可(注意,一定要确保文件删除的是没有用的,如果不放心最好在空白文件夹下进行数据集下载等操作,方便删除)
可以利用下面的语句进行文件删除
rm -rf

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)