GATK3.8相关软件及文件准备
GATK官网相关栏目
- Tool Documentation (包含每个工具的使用说明)
- Tutorials (包含具体参数和细节)
- GATK Best Practices (包含两个主流的分析流程)
全外显子测序call Germline SNP & Indel流程图

体细胞拷贝数变异分析流程!
使用RNA-seq数据call变异

- Forum (提问和搜索报错解决很有用)

- Blog (包含历年的workshop材料,学习用得上)
Presentation slides and tutorial materials - Pretoria 2017(需要翻墙才能下载)
GATK3.8下载
GATK=GenomeAnalysisToolkit,最新稳定版为GATK3.8 (需要注册!)
电脑软件在投放市场前,需要有人测试一下,看看是不是有问题,在开发该软件的公司内部的由该公司内部人员测试的称为:alfa测试。alfa测试主要看有没有功能缺失或系统错误,alfa测试完后一般不会有大问题了,然后把软件拿给用户测试,称为:beta测试,主要是看用户对软件外观,使用方便等的反映。 如果beta1版用户反映有问题,拿到公司修改,改完后发布beta2版,还有不满意的地方,再改,再发布beta3版,直到用户满意,或正式版发布为止。
GATK4.Beta.5即为测试版
#解压:
tar -jxvf GenomeAnalysisTK-3.8-0.tar.bz2
Getting Started
(1)java版本要求大于1.8.x
java -version
(2)测试
java -jar /path/to/GenomeAnalysisTK.jar -h
(3)设置别名
alias gatk="/home/wangdong/softwares/GATK3.8/GenomeAnalysisTK.jar"
(4)下载java1.7版本,解压即可(MuTect1.1.7需要)

(5)mutect下载安装
- github上mutect源码 broadinstitute/mutect(不必下载)
- GATK官网提供的编译好的MuTect1.1.7
- How do I run MuTect?(参数详解及使用例子)
(6) 其他软件及环境配置
Software packages
- BWA
- SAMtools
- Picard
- IGV
- RStudio IDE and R libraries ggplot2 and gsalib
参考:(howto) Install all software packages required to follow the GATK Best Practices.
Reference sequence和annotation下载
(请务必使用GATK resource bundle提供的参考基因组相关文件非常重要!)
GATK resource bundle介绍:
http://gatkforums.broadinstitute.org/discussion/1213/whats-in-the-resource-bundle-and-how-can-i-get-it
GATK resource bundle FTP地址:
http://gatkforums.broadinstitute.org/discussion/1215/how-can-i-access-the-gsa-public-ftp-server
(1)使用Xftp5等FTP server登陆
location: ftp.broadinstitute.org/bundle
username: gsapubftp-anonymous
password:
(2)使用浏览器登陆
ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/
Reference sequence
- ucsc.hg19.dict.gz
- ucsc.hg19.fasta.fai.gz
- ucsc.hg19.fasta.gz
How can I prepare a FASTA file to use as reference?
picard CreateSequenceDictionary R= hg19.fa O= hg19.dict
annotation
- 1000G_omni2.5.hg19.sites.vcf.idx
- 1000G_omni2.5.hg19.sites.vcf.idx
- 1000G_phase1.indels.hg19.sites.vcf
- 1000G_phase1.indels.hg19.sites.vcf.idx
- hg19/1000G_phase1.snps.high_confidence.hg19.sites.vcf
- hg19/1000G_phase1.snps.high_confidence.hg19.sites.vcf.idx
- dbsnp_138.hg19.vcf
- dbsnp_138.hg19.vcf.idx
- hapmap_3.3.hg19.sites.vcf
- hapmap_3.3.hg19.sites.vcf.idx
- Mills_and_1000G_gold_standard.indels.hg19.sites.vcf
- Mills_and_1000G_gold_standard.indels.hg19.sites.vcf.idx
dbSNP 用于去除部分候选突变,其在其他人中已经被观察到的,最有可能是胚系突变。因为提交给dbSNP数据库的突变验证水平很低,所以我们不能确定标记为胚系突变或者体细胞突变的标签是否可信。
相比之下,COSMIC是一个经过更高验证的资源,所以它基本上被用作白名单来“拯救”候选突变,否则这些候选突变将会因为在正常和/或dbSNP中而被去除。 我们期望在dbSNP中被标记为somatic的任何东西都将在COSMIC中,所以我们可以依靠COSMIC来重新回收这些位点。
当前最好的已知indels集合将被用于局部重新比对(local realignment)(请注意,我们不再使用dbSNP); 使用这两个文件:
- 1000G_phase1.indels.b37.vcf (currently from the 1000 Genomes Phase I indel calls)
- Mills_and_1000G_gold_standard.indels.b37.sites.vcf
If you run any GATK tool on a vcf that doesn’t have an index, it will automatically generate one for you, so knock yourself out。 参考:generate an idx file for a vcf
GATK: Prepare Reference Files
参考: (howto) Prepare a reference for use with BWA and GATK
Prerequisites
- Installed BWA
- Installed SAMTools
- Installed Picard
Steps
Generate the BWA index
bwa index -a bwtsw ucsc.hg19.fasta #-a bwtsw指定索引算法
Generate the Fasta file index
samtools faidx ucsc.hg19.fasta #将生成ucsc.hg19.fasta.fai 文件
Generate the sequence dictionary(也可直接用已下载的ucsc.hg19.dict文件)
java -jar picard.jar CreateSequenceDictionary \
REFERENCE=reference.fa \
OUTPUT=reference.dict
(更详细的可参考:链接)
Cosmic*.gz文件下载
COSMIC需要注册
下载
- CosmicCodingMuts.vcf
- CosmicNonCodingVariants.vcf
Cosmic.hg19.vcf文件生成
COSMIC and dbSNP files for MuTect
sortByRef.pl was part of https://github.com/amplab/smash
gunzip Cosmic*.gz
grep "^#" CosmicCodingMuts.vcf > VCF_Header
grep -v "^#" CosmicCodingMuts.vcf > Coding.clean
grep -v "^#" CosmicNonCodingVariants.vcf > NonCoding.clean
cat Coding.clean NonCoding.clean | sort -gk 2,2 | awk '{print "chr"$0}' | perl sortByRef.pl --k 1 - hg19UCSC.fa.fai > Cosmic.hg19
cat VCF_Header Cosmic.hg19 > Cosmic.hg19.vcf
GATK输入文件要求
参考:What input files does the GATK accept / require?
参考
(1)GATK使用(推荐)
(4)GATK Best practices for variant discovery (BITS Courses TRAINING AT VIB)