PLINK (1.07) Documentation
Shaun Purcell
layout editor: Kathe Todd-Brown
May 10, 2010
2
Contents
1 Getting started with PLINK
1.1 Citing PLINK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Reporting problems, bugs and questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Download . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Development version source code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 General installation notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Windows/MS-DOS notes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 UNIX/Linux notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8 Source code compilation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Starting compilation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.9 Running PLINK from the command line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.10 Viewing PLINK output files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.1 LAPACK support
1.8.2
2 A PLINK tutorial
2.1
89 HapMap samples and 80K random SNPs . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Using PLINK to analyse these data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Basic usage / data formats
3.2.1 Different PED file formats: missing fields
3.1 Running PLINK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 PED files
. . . . . . . . . . . . . . . . . . . . . . . . .
3.3 MAP files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Chromosome codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Allele codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Transposed filesets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Long-format filesets
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 Additional options for long-format files . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Binary PED files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7 Alternate phenotype files
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.1 Creating a new binary phenotype automatically . . . . . . . . . . . . . . . . . . . . . .
”Loop association”: automatically testing each group versus all others . . . . . . . . .
3.7.2
3.8 Covariate files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.9 Cluster files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.10 Set files
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Data management tools
4.1 Recode and reorder a sample . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Transposed genotype files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Additive and dominance components . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
1
3
3
3
4
4
5
7
7
8
8
11
11
12
31
31
32
34
35
35
36
37
37
39
41
41
42
43
44
44
45
47
47
48
48
i
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.3 Listing by minor allele count
4.1.4 Listing by long-format (LGEN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.5 Listing by genotype
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Write SNP list files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Update SNP information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Update allele information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 Force a specific reference allele
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6 Update individual information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7 Write covariate files
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8 Write cluster files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9 Flip DNA strand for SNPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.10 Using LD to identify incorrect strand assignment in a subset of the sample
. . . . . . . . . .
4.11 Merge two filesets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.12 Merge multiple filesets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.13 Extract a subset of SNPs: command line options . . . . . . . . . . . . . . . . . . . . . . . . .
4.13.1 Based on a single chromosome (--chr) . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.13.2 Based on a range of SNPs (--from and --to) . . . . . . . . . . . . . . . . . . . . . . .
4.13.3 Based on single SNP (and window) (--snp and --window)
. . . . . . . . . . . . . . .
4.13.4 Based on multiple SNPs and ranges (--snps) . . . . . . . . . . . . . . . . . . . . . . .
4.13.5 Based on physical position (--from-kb, etc) . . . . . . . . . . . . . . . . . . . . . . . .
4.13.6 Based on a random sampling (--thin) . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.14 Extract a subset of SNPs: file-list options . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.14.1 Based on an attribute file (--attrib)
. . . . . . . . . . . . . . . . . . . . . . . . . . .
4.14.2 Based on a set file (--gene) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.15 Remove a subset of SNPs
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.16 Make missing a specific set of genotypes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.17 Extract a subset of individuals
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.18 Remove a subset of individuals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.19 Filter out a subset of individuals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.20 Attribute filters for markers and individuals . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.21 Create a SET file based on a list of ranges . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.21.1 Options for --make-set . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.22 Tabulate set membership for all SNPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.23 SNP-based quality scores
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.24 Genotype-based quality scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Summary statistics
5.1 Missing genotypes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Obligatory missing genotypes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Cluster individuals based on missing genotypes . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Test of missingness by case/control status . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Haplotype-based test for non-random missing genotype data . . . . . . . . . . . . . . . . . . .
5.6 Hardy-Weinberg Equilibrium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7 Allele frequency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.8 Linkage disequilibrium based SNP pruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.9 Mendel errors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.10 Sex check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.11 Pedigree errors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii
50
50
51
51
52
53
53
54
54
56
56
56
58
60
60
60
60
61
61
61
61
62
62
62
63
63
64
64
65
65
66
67
67
68
68
71
71
72
74
75
75
77
78
78
79
80
81
6 Inclusion thresholds
6.0.1
Summary statistics versus inclusion criteria . . . . . . . . . . . . . . . . . . . . . . . .
6.0.2 Default threshold values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1 Missing rate per person . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Allele frequency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Missing rate per SNP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4 Hardy-Weinberg Equilibrium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5 Mendel error rate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 Population stratification
7.1
IBS clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Permutation test for between group IBS differences . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Constraints on clustering
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
IBS similarity matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4
7.5 Multidimensional scaling plots
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Speeding up MDS plots: 1. Use the LAPACK library . . . . . . . . . . . . . . . . . .
Speeding up MDS plots: 2. pre-cluster individuals . . . . . . . . . . . . . . . . . . . .
7.6 Outlier detecion diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.5.1
7.5.2
83
83
83
83
84
84
84
85
87
87
90
91
93
94
95
95
95
8 IBS/IBD estimation
97
97
8.1 Pairwise IBD estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
8.2
Inbreeding coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Runs of homozygosity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
8.4 Segmental sharing: detection of extended haplotypes shared IBD . . . . . . . . . . . . . . . . 102
Check for a homogenous sample . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.4.1
Remove very closely related individuals . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.4.2
8.4.3
Prune the set of SNPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.4.4 Detecting shared segments (extended, shared haplotypes) . . . . . . . . . . . . . . . . 104
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.4.5 Association with disease
9 Association analysis
107
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9.1 Basic case/control association test
9.2 Fisher’s Exact test (allelic association)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
9.3 Alternate / full model association tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
9.4 Stratified analyses
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
9.5 Testing for heterogeneous association . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
9.6 Hotelling’s T(2) multilocus association test
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
9.7 Quantitative trait association . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
9.8 Genotype means for quantitative traits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
9.9 Quantitative trait interaction (GxE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
9.10 Linear and logistic models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.10.1 Basic usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.10.2 Covariates and interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
9.10.3 Flexibly specifying the model
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
9.10.4 Flexibly specifying joint tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.10.5 Multicollinearity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
9.11 Set-based tests
9.12 Adjustment for multiple testing: Bonferroni, Sidak, FDR, etc . . . . . . . . . . . . . . . . . . 122
iii
125
10 Family-based association analysis
10.1 Family-based association (TDT)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
10.2 parenTDT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
10.3 Parent of origin analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.4 DFAM: family-based association for disease traits . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.5 QFAM: family-based association tests for quantitative traits . . . . . . . . . . . . . . . . . . . 128
11 Permutation procedures
131
11.0.1 Conceptual overview of permutation procedures . . . . . . . . . . . . . . . . . . . . . . 131
11.0.2 Label-swapping and gene-dropping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
11.0.3 Adaptive and max(T) permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
11.0.4 Computational issues
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
11.1 Basic (adaptive) permutation procedure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
11.2 Adaptive permutation parameters
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
11.3 max(T) permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
11.4 Gene-dropping permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.4.1 Basic within family QTDT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.4.2 Discordant sibling test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.4.3 parenTDT/parenQTDT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.4.4 Standard association for singleton, unrelated individuals . . . . . . . . . . . . . . . . . 135
11.5 Within-cluster permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
11.6 Generating permuted phenotype filesets
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
12 Multimarker haplotype tests
139
12.1 Specification of haplotypes to be estimated . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
12.2 Precomputed lists of multimarker tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
12.3 Estimating haplotype frequencies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
12.4 Testing for haplotype-based case/control and quantitative trait association . . . . . . . . . . . 141
12.5 Haplotype-based association tests with GLMs . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
12.6 Haplotype-based TDT association test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
12.7 Imputing multimarker haplotypes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
12.8 Tabulating individuals’ haplotype phases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
13 LD calculations
147
13.1 Pairwise LD measures for a single pair of SNPs . . . . . . . . . . . . . . . . . . . . . . . . . . 147
13.2 Pairwise LD measures for multiple SNPs (genome-wide) . . . . . . . . . . . . . . . . . . . . . 147
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
13.2.1 Filtering the output
13.2.2 Obtaining LD values for a specific SNP versus all others
. . . . . . . . . . . . . . . . 148
13.2.3 Obtaining a matrix of LD values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
13.3 Functions to select tag SNPs for specified SNP sets . . . . . . . . . . . . . . . . . . . . . . . . 149
13.4 Haplotyp block estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
14 Conditional haplotype-based association testing
153
14.1 Basic usage for conditional haplotype-based testing . . . . . . . . . . . . . . . . . . . . . . . . 154
14.2 Specifying the type of test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
14.2.1 Testing a specific haplotype . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
14.2.2 Testing whether SNPs have independent effects . . . . . . . . . . . . . . . . . . . . . . 157
14.2.3 Omnibus test controlling for X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
14.3 General specification of haplotype groupings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
14.3.1 Manually specifying haplotypes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
14.3.2 Manually specifying SNPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
14.4 Covariates and additional SNPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
iv
14.5 General setting of linear constraints
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
15 Proxy association
15.1 Proxy association: basic usage
165
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
15.1.1 Heuristic for selection of proxy SNPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
15.1.2 Specifying the type of association test . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
15.2 Refining a single SNP association . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
15.3 Automating for multiple references SNPs
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
15.4 Providing some degree of robustness to non-random genotyping failure . . . . . . . . . . . . . 171
16 SNP imputation and association testing
16.1 Basic steps for using PLINK imputation functions
175
. . . . . . . . . . . . . . . . . . . . . . . . 175
16.1.1 Strand issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
16.2 Combined imputation and association analysis of case/control data . . . . . . . . . . . . . . . 176
16.3 Modifying options for basic imputation/association testing . . . . . . . . . . . . . . . . . . . . 177
16.3.1 Parameters modifying selection of proxies . . . . . . . . . . . . . . . . . . . . . . . . . 177
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
16.4 Imputing discrete genotype calls
16.5 Verbose output options
17 Analysis of dosage data
181
17.1 Basic usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
17.2 Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
17.3 Examples of different input format options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
18 Meta-analysis
185
18.1 Basic usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
18.2 Misc. options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
19 Result annotation
189
19.1 Basic usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
19.2 Misc. options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
20 LD-based result clumping procedure
193
20.1 Basic usage for LD-based clumping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
20.2 Verbose report
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
20.2.1 Annotation by SNP details and genomic co-ordinates . . . . . . . . . . . . . . . . . . . 195
20.3 Combining multiple result files (potentially from different SNP panels) . . . . . . . . . . . . . 197
20.4 Selecting the single best proxy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
21 Gene reporting tool
201
21.1 Basic usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
21.2 Other options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
22 Epistasis
203
22.1 SNP x SNP epistasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
22.1.1 A faster epistasis option . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
22.2 Case-only epistasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
22.3 Gene-based tests of epistasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
v
23 R plugin functions
207
23.1 Basic usage for R plug-ins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
23.2 Defining the R plug-in function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
23.3 Example of debugging an R plug-in . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
23.4 Setting up the Rserve package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
24 SNP annotation database lookup
213
24.1 Basic usage for SNP lookup function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
24.2 Gene-based SNP lookup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
24.3 Description of the annotation information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
25 SNP simulation routine
217
25.1 Basic usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
25.2 Specification of LD between marker and causal variant . . . . . . . . . . . . . . . . . . . . . . 218
25.3 Resimulating a sample from the same population . . . . . . . . . . . . . . . . . . . . . . . . . 219
25.4 Simulating a quantitative trait
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
26 SNP scoring routine
223
26.1 Basic usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
26.2 Multiple scores from SNP subsets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
26.3 Misc. options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
27 Rare copy number variant (CNV) data
225
27.1 Basic support for segmental CNV data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
27.2 Creating MAP files for CNV data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
27.3 Loading CNV data files
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
27.4 Checking for overlapping CNV calls (within the same individual) . . . . . . . . . . . . . . . . 228
27.5 Filtering of CNV data based on CNV type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
27.6 Filtering of CNV data based on genomic location . . . . . . . . . . . . . . . . . . . . . . . . . 229
27.6.1 Defining overlap for partially overlapping CNVs and regions
. . . . . . . . . . . . . . 230
27.6.2 Filtering by chromosomal co-ordinates . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
27.7 Filtering of CNV data based on frequency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
27.7.1 Alternative frequency filtering specification . . . . . . . . . . . . . . . . . . . . . . . . 231
27.7.2 Miscellaneous commands frequency filtering commands
. . . . . . . . . . . . . . . . . 232
27.8 Association analysis of segmental CNV data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
27.9 Association mapping with segmental CNV data . . . . . . . . . . . . . . . . . . . . . . . . . . 233
27.10Association mapping with segmental CNV data: regional tests
. . . . . . . . . . . . . . . . . 234
27.11Association mapping with segmental CNV data: quantitative traits . . . . . . . . . . . . . . . 234
27.12Writing new CNV lists . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
27.12.1 Creating UCSC browser CNV tracks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
27.13Listing intersected genes and regions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
27.14Reporting sets of overlapping segmental CNVs
. . . . . . . . . . . . . . . . . . . . . . . . . . 238
28 Common copy number polymorphism (CNP) data
241
28.1 Format for common CNVs (generic variant format) . . . . . . . . . . . . . . . . . . . . . . . . 241
28.2 Association models for combined SNP and common CNV data . . . . . . . . . . . . . . . . . 243
29 Resources available for download
245
29.1 The Phase 2 HapMap as a PLINK fileset
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
29.2 Teaching materials and example dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
29.3 Multimarker test lists
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
29.4 Gene sets
29.5 Gene range lists . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
vi