README.md : 说明文件,一般都得看下。
config.json :定义了architectures等超参数

flax_model.msgpack:标注了LFS(Large File Storage),和其他两个一样,有个_model都是模型文件。Flax库和pytorch、TensorFlow一样,也是个神经网络框架。

generation_config.json:和config.json类似,也是一些超参数信息,不过是训练之后的超参数信息。

pytorch_model.bin:pytorch版本的模型,用bin存储

special_tokens_map.json:记载了特殊字符的映射,比如"unk_token"、""都映射为空

spiece.model:包含vocab(词汇表),mt5模型由于vocab词汇表中的词汇过多,采用从spiece.model之中读取的方式处理。

tf_model.h5:TensorFlow版本的模型,用h5存储,H5文件是层次数据格式第5代的版本(Hierarchical Data Format,HDF5),它是用于存储科学数据的一种文件格式和库文件。

tokenizer_config.json:也是一种字符设置,和special_tokens_map.json类似

分析完之后,其实模型下载自己神经网络框架对应版本,其他配置文件全部下载:

步骤四:将下载好的文件放在你需要的目录下,比如我把下载文件放在’D:/download/model/mt5s/’

步骤五:修改缓存路径,并调用就行了。

model_checkpoint = ‘D:/download/model/mt5s/’
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

添加VX:vip204888 (备注大数据获取)**
[外链图片转存中…(img-iDikyQjj-1712529789823)]

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐