前言

使用TCGA数据集,一般直接下载很难成功下载,大部分需要使用官方的GDC-Client下载工具。

gdc-client工具安装

下载地址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
下完之后,是一个压缩包,需要自己进行解压缩。解压缩之后只有一个gdc-client.exe文件。
这个时候需要打开环境变量,如下图
在这里插入图片描述
双击PATH之后,进入到下面页面,点击新建,输入gdc-client.exe所在的目录。
在这里插入图片描述
找到gdc-client.exe所在的目录,创建一个与gdc-client.exe同级的文件。
创建my-dtt-config.dtt文件,可以先写成txt的形式,用记事本打开,添加完下面的内容之后(全部复制即可)再改回dtt形式。

[download]
dir = . 
save_interval = 1073741824
http_chunk_size = 4096
no_segment_md5sums =False
no_file_md5sum = False
no_verify = True
no_related_files = False
no_annotations = False
no_auto_retry = False
retry_amoumt = 6
wait_time = 25.0
latest = False
server =https://api.gdc.cancer.gov
n_processes = 4

数据下载步骤

需要去TCGA官网找到想要下载的数据集,这边以乳腺癌为例.
在这里插入图片描述
在这里插入图片描述
找到你要下载的数据集,也可以搜索栏搜索,找到之后勾选。
在这里插入图片描述
点击Save New Cohort,会让你输入一个名字,随便即可。
在这里插入图片描述
在这里插入图片描述
选中你刚才创建的Cohort,这边我选的是CESC。
在这里插入图片描述
然后点击Repository。
在这里插入图片描述
在这边你可以选择你想要下载的关于乳腺癌的各种数据,这边以乳腺癌的WSI为例。在右侧栏中找到下面的内容并勾选:
Experimental Strategy:Tissue Slide
Data Type:Slide Image
在这里插入图片描述
上面就是svs的数据集,你可以全部下载,也可以下载一部分,这边就下载2个为例。点击左侧的购物车,就会加入到队列中。
添加完之后,回到购物车,如下图。
在这里插入图片描述
在这里插入图片描述
把下载完的这个文件放到和gdc-client.exe同目录下。
然后win+R,输入cmd,打开终端。
进入到gdc-clinet.exe所在的文件夹下,输入gdc-client.exe download --config gdc-client.dtt -m gdc_manifest.txt命令行,即可下载数据集,此时这个数据集被下载到与gdc-client.exe同目录下。
此时下载的速度是很快的,不会有限制,不用科学上网,如果很慢就换个网络,我是用自己的流量测试的很快。

引用链接

https://www.jianshu.com/p/bea374ce82b3

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐