最近在微调qwen-2.5-3B模型时遇到一些问题,后续会陆续总结到这篇文章中。

数据集下载报错Loading a dataset cached in a LocalFileSystem is not supported

报错界面如下


NotImplementedError                       Traceback (most recent call last)
Cell In[10], line 4
      1 from datasets import load_dataset
      3 # Login using e.g. `huggingface-cli login` to access this dataset
----> 4 ds = load_dataset("bespokelabs/Bespoke-Stratos-17k",cache_dir = './data/reasoning')

File ~/miniconda3/lib/python3.12/site-packages/datasets/load.py:2143, in load_dataset(path, name, data_dir, data_files, split, cache_dir, features, download_config, download_mode, verification_mode, ignore_verifications, keep_in_memory, save_infos, revision, token, use_auth_token, task, streaming, num_proc, storage_options, **config_kwargs)
   2139 # Build dataset for splits
   2140 keep_in_memory = (
   2141     keep_in_memory if keep_in_memory is not None else is_small_dataset(builder_instance.info.dataset_size)
   2142 )
-> 2143 ds = builder_instance.as_dataset(split=split, verification_mode=verification_mode, in_memory=keep_in_memory)
   2144 # Rename and cast features to match task schema
   2145 if task is not None:
   2146     # To avoid issuing the same warning twice

File ~/miniconda3/lib/python3.12/site-packages/datasets/builder.py:1173, in DatasetBuilder.as_dataset(self, split, run_post_process, verification_mode, ignore_verifications, in_memory)
   1171 is_local = not is_remote_filesystem(self._fs)
   1172 if not is_local:
-> 1173     raise NotImplementedError(f"Loading a dataset cached in a {type(self._fs).__name__} is not supported.")
   1174 if not os.path.exists(self._output_dir):
   1175     raise FileNotFoundError(
   1176         f"Dataset {self.dataset_name}: could not find data in {self._output_dir}. Please make sure to call "
   1177         "builder.download_and_prepare(), or use "
   1178         "datasets.load_dataset() before trying to access the Dataset object."
   1179     )

NotImplementedError: Loading a dataset cached in a LocalFileSystem is not supported

这是通过hugging face下载数据集时报错的问题,博主碰到这个问题后找了很多方法,最终通过更新fsspec到适配datasets的版本解决,这里总结一下博主找到的相关方法

更新datasets版本

可能由于fsspec版本已经更新到最新,但datasets未更新导致,可以通过在终端使用下述命令更新datasets解决

pip install -U datasets

更新fsspec版本

如果更新datasets后没有用,可以通过更新fsspec来尝试解决,可以先安装一个低版本的fsspec包来引导终端报错(会输出推荐安装的fsspec版本),例如

pip install fsspec==2023.9.2

如果程序报错,此时可以通过报错查看合适版本,如果没有报错,可以直接尝试重新下载数据集

清除缓存

如果上述方法都没有用,可以尝试清除之前缓存重新下载
首先在终端查看当前目录下的文件

ls -a

此时会显示部分隐藏文件和你存数据的文件,将相应文件删除即可(注意,一定要确保文件删除的是没有用的,如果不放心最好在空白文件夹下进行数据集下载等操作,方便删除)
可以利用下面的语句进行文件删除

rm -rf
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐