代码下载

GLUE数据集项目地址:https://github.com/nyu-mll/GLUE-baselines/tree/master,
先将项目下载到本地

环境配置

根据environment.yaml中的依赖库配置环境
创建python3.6 conda环境

conda create -n GLUE python=3.6
conda activate GLUE

下载对应版本的包
直接安装pytorch会报错,加上-f链接到pytorch官网下载;

pip install torch==0.4.1 -f https://download.pytorch.org/whl/torch_stable.html

allennlp建议用清华源下载(https://pypi.tuna.tsinghua.edu.cn/simple/);

pip install allennlp==0.4 -i https://pypi.tuna.tsinghua.edu.cn/simple/

其余的包直接正常pip install即可

下载

python download_glue_data.py --data_dir glue_data --tasks all

MRPC

直接使用上述命令下载其他数据集没有问题,但是MRPC会报错如下:
MRPC报错信息
解决方法:
下载dev_ids.tsv
在https://github.com/MegEngine/Models/tree/master/official/nlp/bert/glue_data/MRPC中下载dev_ids.tsv,并将下载好的文件放到下载数据集时的data_dir的MRPC下(命令中的data_dir为glue_data)
修改源代码
注释掉down_glue_data.py中的下面这段:
注释代码
重新运行下载代码单独下载MRPC

python download_glue_data.py --data_dir glue_data --tasks MRPC

MRPC下载成功

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐