logo资料库

Structure软件中文教程.pdf

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
1、待分析数据文件的编辑 可新建文本文件并命名为 project_data,以文本编辑的方式编辑数列: 第一列:样品代码,每一样品占两行,每一行为其一个基因型,如样品 1 的基因型为 AA, 样品 2 的基因型为 AT,样品 3 的基因型为 TT,则编辑为: 1 1 1 1 2 1 2 2 3 2 3 2 如果有多个等位基因,可以按 1,2,3,4,5 等顺序编码各样品的基因型; 第二列:人群代码,即第一群人的代码全为 1,第二群人的代码全为 2,第三群人的代码全 为 3; 第三列:位点 1 的分型结果。如上所述,如果有 2 个等位基因,可用 1、2 代表;如果有多 个等位基因,可分别以 1,2,3,4,5 等代表; 第四列:位点 2 的分型结果。编码方法同上。 2、打开 Structure 软件,选择 File-->OPEN DATA FILE-->选中所编辑好的打他 data 文件,查看 格式、数据,如有修改应保存退出; 3、选择 File-->NEW PROJECT-->STEP 1-->命名 Project Name-->选择存放路径-->选择保存过的待 分析文件; 4、STEP 2-->填入待分析样品数量,如 220-->Ploidy of data 即选择单倍体或二倍体,选 2-->Number of loci,选位点个数-->MiMissing data value,一般选-9; 5、STEP 3-->依次选择 row of marker names, row of recessive alleles, map distance between loci, phase information 等,没有就不选;最下面,如果没有 data file stores data for individuals in a single line 就不选; 6、STEP 4-->Individual ID for each individual(选择) ,putative population origin for each individual (选择),USEPOPINFO selection flag(不选),Phenotype information(不选),other extra column (不选)以及 number of extra column(不选); 7、点击“Finish”;Proceed; 8、点击 Parameter set-->new-->length of burnin peroid (填写 10000)-->Number of MCMC Reps
after burnin (填写 10000); 9、Ancestry Models,Allele frequency model,Advanced 等均选 Default setting; enter the name: 输入名字,运行完毕将产生一个由该名字命名的文件夹以保存运算结果和绘图。 10、点击“Start a job”,单击选中命名的文件夹名称,设置 K 从 2 到 7 等,其它不选,点击 Start。 11、点击“Plotting”,选择刚才命名 job 的名字,result file 选择 run_1, run_2 等,即可看到 聚类的三角图形。 12、注意:运行完毕后产生的以“job 名字”命名的文件夹中自动含有 project_data 文件, 其内容与最初编辑的 project_data 文件完全一致,故原编辑的 project_data 文件可以删去。 柱形图绘制软件 Distruct 使用指南 当 Structure 软件运行完毕获得结果后,往往需要以 CLUMPP 或 distruct 软件绘制柱形图。 distruct 用法如下: 1、从 http://rosenberglab.bioinformatics.med.umich.edu/distruct.html 下载并解压缩 Distruct 1.1 压缩包,可以看到含 7 个以 casia 为名的文件及 5 个名字字首为 distruct 的文件,还有一个 drawparams 的文件和一个颜色文件夹; 2、运行 casia.postscript 文件,应该能产生一个含 9 个群体柱形图的 casia.pdf 文件,这表明 系统及软件正常; 3、打开 casia.popq 和 casia.indivq 将其原内容清空并置换为前述 Structure 软件运行后所产生 的_run_1_f 文件的内容(拷贝并粘贴),其中_run_1_f 文件同时含有 individual 和 population 两者的数据。以 Word 打开 casia.indivq 文件,将_run_1_f 文件后半部分的内容自“Inferred ancestry of individuals”行以下的数据拷贝并粘贴到 casia.indivq 文件中,全部替换原来的 210 行数据;以 Excel 打开 casia.popq 文件,将_run_1_f 文件前半部分含有“Proportion of membership of each pre-defined population in each of the 3 clusters”的行下面的数据拷贝并粘 贴到 casia.popq 中,并替换原来的内容(K=3 是可变的!)。新产生的内容注意仍然保持原来 210 行数据的那种格式。 4、打开 casia.languages 文件,将原内容 “50 Indo-European 51 Dravidian 57 Indo-European 59 Indo-European
58 Indo-European 52 Linguistic isolate 54 Indo-European 629 Altaic 699 Altaic 56 Indo-European” 替换为现内容 “1 CEU 2 CHB 3 YRI”; 保存为原格式; 5、打开 casia.names 文件,将原内容 "50 Balochi 51 Brahui 57 Makrani 59 Sindhi 58 Pathan 52 Burusho 54 Hazara 629 Uygur 699 Yakut 56 Kalash"
替换为现内容 "1 CEU 2 CHB 3 YRI" 保存为原格式; 6、打开 casia.perm 文件,将原内容 "5 yellOw 4 Pink 1 Red 2 green 3 blue_Purple" 中的 4、5 颜色删去,并保存为原格式; 7、以文本格式打开 drawparams 文件,将 drawparams 文件中的 #define K 5 // (int) number of clusters #define NUMPOPS 9 // (int) number of pre-defined populations #define NUMINDS 210 // (int) number of individuals 中的 5,9,210 改为 3,3,220,并保存; 8、将原 distruct1.1 文件夹中的 casia_f 文件删去,将_run_1_f 文件整个拷贝并粘贴到解压缩 后获得的 distruct1.1 文件夹中,重命名为 casia_f; 9、运行 distruct1.1 文件夹中的 distructWindows1.1 应用程序,将修改导入 Windows 系统; 10、点击 casia.postscript 文件即可产生 casia.pdf 文件,这便是所需的结果。
分享到:
收藏