1、待分析数据文件的编辑
可新建文本文件并命名为 project_data,以文本编辑的方式编辑数列:
第一列:样品代码,每一样品占两行,每一行为其一个基因型,如样品 1 的基因型为 AA,
样品 2 的基因型为 AT,样品 3 的基因型为 TT,则编辑为:
1 1
1 1
2 1
2 2
3 2
3 2
如果有多个等位基因,可以按 1,2,3,4,5 等顺序编码各样品的基因型;
第二列:人群代码,即第一群人的代码全为 1,第二群人的代码全为 2,第三群人的代码全
为 3;
第三列:位点 1 的分型结果。如上所述,如果有 2 个等位基因,可用 1、2 代表;如果有多
个等位基因,可分别以 1,2,3,4,5 等代表;
第四列:位点 2 的分型结果。编码方法同上。
2、打开 Structure 软件,选择 File-->OPEN DATA FILE-->选中所编辑好的打他 data 文件,查看
格式、数据,如有修改应保存退出;
3、选择 File-->NEW PROJECT-->STEP 1-->命名 Project Name-->选择存放路径-->选择保存过的待
分析文件;
4、STEP 2-->填入待分析样品数量,如 220-->Ploidy of data 即选择单倍体或二倍体,选
2-->Number of loci,选位点个数-->MiMissing data value,一般选-9;
5、STEP 3-->依次选择 row of marker names, row of recessive alleles, map distance between loci,
phase information 等,没有就不选;最下面,如果没有 data file stores data for individuals in a
single line 就不选;
6、STEP 4-->Individual ID for each individual(选择) ,putative population origin for each individual
(选择),USEPOPINFO selection flag(不选),Phenotype information(不选),other extra column
(不选)以及 number of extra column(不选);
7、点击“Finish”;Proceed;
8、点击 Parameter set-->new-->length of burnin peroid (填写 10000)-->Number of MCMC Reps
after burnin (填写 10000);
9、Ancestry Models,Allele frequency model,Advanced 等均选 Default setting; enter the name:
输入名字,运行完毕将产生一个由该名字命名的文件夹以保存运算结果和绘图。
10、点击“Start a job”,单击选中命名的文件夹名称,设置 K 从 2 到 7 等,其它不选,点击
Start。
11、点击“Plotting”,选择刚才命名 job 的名字,result file 选择 run_1, run_2 等,即可看到
聚类的三角图形。
12、注意:运行完毕后产生的以“job 名字”命名的文件夹中自动含有 project_data 文件,
其内容与最初编辑的 project_data 文件完全一致,故原编辑的 project_data 文件可以删去。
柱形图绘制软件 Distruct 使用指南
当 Structure 软件运行完毕获得结果后,往往需要以 CLUMPP 或 distruct 软件绘制柱形图。
distruct 用法如下:
1、从 http://rosenberglab.bioinformatics.med.umich.edu/distruct.html 下载并解压缩 Distruct 1.1
压缩包,可以看到含 7 个以 casia 为名的文件及 5 个名字字首为 distruct 的文件,还有一个
drawparams 的文件和一个颜色文件夹;
2、运行 casia.postscript 文件,应该能产生一个含 9 个群体柱形图的 casia.pdf 文件,这表明
系统及软件正常;
3、打开 casia.popq 和 casia.indivq 将其原内容清空并置换为前述 Structure 软件运行后所产生
的_run_1_f 文件的内容(拷贝并粘贴),其中_run_1_f 文件同时含有 individual 和 population
两者的数据。以 Word 打开 casia.indivq 文件,将_run_1_f 文件后半部分的内容自“Inferred
ancestry of individuals”行以下的数据拷贝并粘贴到 casia.indivq 文件中,全部替换原来的 210
行数据;以 Excel 打开 casia.popq 文件,将_run_1_f 文件前半部分含有“Proportion of
membership of each pre-defined population in each of the 3 clusters”的行下面的数据拷贝并粘
贴到 casia.popq 中,并替换原来的内容(K=3 是可变的!)。新产生的内容注意仍然保持原来
210 行数据的那种格式。
4、打开 casia.languages 文件,将原内容
“50 Indo-European
51 Dravidian
57 Indo-European
59 Indo-European
58 Indo-European
52 Linguistic isolate
54 Indo-European
629 Altaic
699 Altaic
56 Indo-European”
替换为现内容
“1 CEU
2 CHB
3 YRI”;
保存为原格式;
5、打开 casia.names 文件,将原内容
"50 Balochi
51 Brahui
57 Makrani
59 Sindhi
58 Pathan
52 Burusho
54 Hazara
629 Uygur
699 Yakut
56 Kalash"
替换为现内容
"1 CEU
2 CHB
3 YRI"
保存为原格式;
6、打开 casia.perm 文件,将原内容
"5 yellOw
4 Pink
1 Red
2 green
3 blue_Purple"
中的 4、5 颜色删去,并保存为原格式;
7、以文本格式打开 drawparams 文件,将 drawparams 文件中的
#define K 5 // (int) number of clusters
#define NUMPOPS 9 // (int) number of pre-defined populations
#define NUMINDS 210 // (int) number of individuals
中的 5,9,210 改为 3,3,220,并保存;
8、将原 distruct1.1 文件夹中的 casia_f 文件删去,将_run_1_f 文件整个拷贝并粘贴到解压缩
后获得的 distruct1.1 文件夹中,重命名为 casia_f;
9、运行 distruct1.1 文件夹中的 distructWindows1.1 应用程序,将修改导入 Windows 系统;
10、点击 casia.postscript 文件即可产生 casia.pdf 文件,这便是所需的结果。