logo资料库

基于Canoco的CCA数据处理过程解析.doc

第1页 / 共12页
第2页 / 共12页
第3页 / 共12页
第4页 / 共12页
第5页 / 共12页
第6页 / 共12页
第7页 / 共12页
第8页 / 共12页
资料共12页,剩余部分请下载后查看
基于 Canoco 的 CCA 数据处理过程解析 一、 数据处理 1、数据格式要求 在 Excel 表格里面,你必须将数据做成矩形形式。默认的方式 (也是常用的方式)是一行代表一个样方,一列代表一个变量。 表格左顶格最好是空着。最好第一列和第一行分别有样方编号和 变量的名称。必须注意的是名称不能超过 8 个字符,如果超过 8 个字符,CANOCO 会自动截取前 8 个字符作为名称。变量名称最 好是英文字母、数字 、圆点或是连字符,空格也可以。 除了第一行和第一列,表格内剩下的填充内容必须是数字或 是空着,绝对不能使用字符型数据。定性变量(因子)必须转换 为哑变量(0‐1 数据)方可进入 CANOCO 分析。 当数据在 Excel 表格里按要求整理好后,将包含数据的矩形方 阵选定,然后选择“复制”按钮,此时数据便复制到剪贴板中。 WCanoImp 便 可 以 从 剪 贴 板 中 读 取 数 据 。 如 图 1‐2a 所 示 , WCanoImp 可以从“开始”菜单中 Canoco for windows 下来菜单中打 开。此时会弹出 WCanoImp 对话框,上半部分包含如何使用该程 序的简短信息,下半部分是一些可选框。如果在 Excel 表格数据是 按照默认方式组织你的数据,第一选项不必选,相反,如果是数 据结构正好相反,以列代表样方,以行代表变量,必须选中这个 “Each column is a Sample”选项。除非你的数据是样方很少而变量 很多(Excel 表格里面列数不能超过 256 列),否则不推荐用这种方
式组织数据。如果你没有样方或是变量没有编号或是名称,可以 选 择 下 面 两 个 选 框 , 程 序 会 帮 你 给 各 行 各 列 附 上 默 认 名 称 (Sample1,)。最后一个选项是问你是否存为压缩型数据类型,除 非你觉得硬盘空间不够大,否则不必选这个选项,是否选这个选 项中对于分析结果毫不影响。 当你确定所以的选择是正确的,你就可以按下 save 按钮,系 统弹出新的对话框让你选择保存新文件地方和取个文件名,之后 会让你给这个文件加个标注,这个标注内容将显示在新文件的数 据内容第一行,以便日后数据内容的识别。选定确认后,程序会 告诉你保存成功。 图 1‐2a WCanoimp 程序打开途径
图 1‐2 b 数据的参考模式及 WCanoimp 对话框 2、物种数据的转化 排序的过程在于寻找最佳预测响应变量的坐标轴,此时坐标轴 代表回归预测器(解释变量)(这些内容将在《基于 CANOCO 的 生态学数据的多元统计分析》第3章详细解释)。因此,在排序中 对响应变量进行转化,就好比在多重回归中要将很多物种数据转 化一个单因变量的形式一样。有点限制的是,在排序中,所有的 响应变量应该是做一致的转化,因为响应变量经常是同一属性的 数据,具有一致的量纲。在基于单峰模型(加权平均)的排序(见 3.2节),所有响应变量的数据不能是负值,这就要求某些带负值 的数据必须转化,而且对于转化的结 果有更严格的要求(不能为 负值)。
这个限定(非负值)对于对数转化更应该值得注意。因为1的对数 为0,而处于0‐1之间的值取对数是负值。因此,在CANOCO里面 提供了变通的对数转化公式: 在对y转化之前,你可设定上面公式中A和C的值,让输出的y`值保 证不小于0。在系统中,A和C默认值均为1,这样可以保证本来是 0的值,转化后仍为0,而其他的值依然是正的。然而,如果你的 原始值很小(比如说处于0‐0.1之间),可以将A的值适当增大,比 如说设为10。但对于百分比数据和普通的点数据,默认的转化 (log(y+1))是比较合适的。 什么情况下需要对响应变量进行对数转化是个很难回答的问题, 统计学家的答案也是五花八门。我们建议你不必太在意关于数据 的分布特征,比如原始数据不一定符合理想的正态分布,对于排 序来说,也不一定非要通过对数转化为正态分布的类型。是否需 要对数转化,关键还是比较原始数据和转化数据分析处理的最终 结果哪个更好解释你所要探讨的问题。 正如上面所描述那样,排序可以被看作多重回归的扩展,所以整 个排序方法可以用简单回归的语言来描述。你可以通过一个或多 个预测器(环境因子或排序轴)来预测一个响应变量(比如物种 的多度)。比如,在一元线形回归方程中(y=B0+BX+E),你可 以问当x变化一个单位时,y的平均值是如何变化的?如果自变量 和因变量都没有对数转化,你可以回答这个问题:当x增加一个单
位时候,y的增量是B。但在很多情况下,你可能更倾向听到这样 的解释,如果变量X增加一个单位,Y的量将增加10%,或是,y 增加1.1倍这样的话。显然,这已经并不是线形回归模型所能体现 出来的,因此,这种前情况下,你需要对响应变量进行对数转化。 同样,如果预测器(环境因子)变化是成倍增长,此时的环境变 量也应该被对数转化。 植物群落组成数据有时是半量化估计尺度数据,比如最典型 的例子是多度的Braun‐Blanquet等级估计(7个等级水平,分别为 r,+,1,2,3,4,5这7个标号表示)。这个等级估计经常在数据表格里用 1‐7的数据来代替原来的标号进行分析。其实,这个量化1‐7的数字 已经相当原始多度数据的对数转化,因为不同等级的多度变化往 往是成倍增加的,不是简单的单位量的变化。 在CANOCO里面另外一种有用的数据转化模式是平方根转 化。平方根转化更适合观测计数数据(count data),比如在土壤 收集器中收集到标本个体的数量,或是通过某一条标志线蚂蚁的 数量等等这样的观测数据。但对数转化对这样的数据进行转化也 是可以的。 当然,如果你觉得需要某种除了对数转化和平方根之外的数 据转化,你可以在数据输入 CANOCO 之前通过别的数据软件进 行。 3、 解释变量的转化 因为解释变量(环境因子变量,包括协变量)经常是样方的多
属性数据,量纲往往不一样的,所以你经常需要选择合适的转化 方法分别对环境变量进行单独转化。CANOCO里面并没有提供这 样的转化,因为很多环境因子在被输入CANOCO之前,就应该被 转化好。 但你应该知道,CANOCO 读了了环境变量或协变量后,它们 会自动被中心化和标准化,让它们的均值为 0 和方差为 1(这个转 化通常被称为“单位方差标准化”)。 4、 数据存储格式转换 用 wCanoImp 形成 canoco 可以识别的数字格式时,物种和环 境因子不同文件的命名最好差别别太大。 二、 统计分析 1、 决定排序的模型:单峰还是线性 在Canoco for Windows的分析过程,有一个关于模型的选择窗 口,你必须对排序的模型进行选择。为了选择更合适的模型,你 尽可能将各种模型都尝试一下,选择一个你最想要的分析结果及 排序图。当然,如果你不知道到底是用线性、还好单峰模型好, 有一个比较简单方法可以帮助你来选择。可以先将物种数据进行 DCA分析,其他的窗口的选项均可以选择默认程序。分析完成后, 在“Log View”内,各轴特征根分析那部分,可以找到“Lengths of gradient”这样一栏信息,这个“Lengths of gradient”是展示每个轴的 梯度长度。如果这四个轴中梯度最长(最大值)超过4,选择单峰 模型排序(CA、CCA、DCA)更合适。如果是小于3,选择线性
模型(PCA、RDA)比较合理。如果介于3-4之间,单峰模型和线 性模型都是合适的。当然,这个选择并不是绝对的,最长梯度小 于3,依然可以用单峰模型,因为线性模型可以看作单峰模型一种 特例。但是梯度大于4,最好还是不用线性模型,线性模型可能误 差比较大,会丢失比较多的信息。 当你选择单峰还是线形模型的时候,你必须预先认识到,不是 所有的数据类型都是适合用单峰模型,比如物种数据是不同量纲的 数据(单位不一致)就不适合做单峰模型的排序。还有,如果有个样 方的空的(即值都为 0),这样的数据进行单峰排序分析,系统会 自动告诉你有空的样方,不能进行分析。如果非要做单峰模型的 排序分析,首先要把这些空样方去掉。 2、 导入数据 ⑴根据所选择的排序类型在 Available Data 对话框中选出所要导入 的数据类型 ⑵在 Data File 对话框中从数据存贮地导入数据 【注:这里的可能会涉及到协变量,而这所说的协变量不同于通 常统计中的协变量。当我们在解释变量(环境因子数据)与响应 变量(物种数据)之间建立预测模型的时候,经常会遇到这样的 情况,往往我们仅仅考察解释变量中某几个环境因子的对物种数 据的影响,但剩下的环境因子也会对物种产生影响,这些剩余环 境因子我们经常称为协变量(Covariables) 。在CANOCO中,协变 量的影响可以用偏分析(partial analyze)剔除出来。
实际上,任何一个环境因子变量均可以成为协变量。例如,我们 要研究管理模式对蝴蝶群落中组成的影响,我们可以在不同的海 拔地点取样,海拔也许对群落物种组成影响很大,但此时我们感 兴趣的是管理模式的影响,而非海拔梯度的影响。这个时候,如 果能剔除出海拔的影响,我们能管理模型与蝴蝶种群之间更清晰 的关系。】 3、 在 Type of Analysis 中选择适当的梯度分析方法 4、 选择适当的排序得分(坐标)的尺度比例 排序最重要的结果是排序图。通过排序图,理论上讲,不仅 可以重建(有一定水平的误差)原始数据结构(物种数据),也可 以重建样方之间相似(相异)矩阵和物种之间的相关矩阵。但没 有人会想从排序图里面恢复真正的原始被测数据,因为原始数据 已经有了。但原始数据对于排序图内容的解释和提炼出感兴趣的 假设是很有用的。对于样方的相似度、物种或环境因子的相关性 等的解释的准确性,部分取决于在排序轴坐标的相对尺度比例 (relative scaling)。Object(样方,物种和环境因子)在排序空间的 绝对值没有任何意义。在解释排序图的,我们使用相对距离,相 对方向和投影点的相对次序。 这个可选的尺度比例让排序图展示不同相对比例,以便更好 解释你想要探讨的问题。但是这个选择并不影响整个分析的结果。 这里“Focus scaling on” 选择在线性和单峰方法中,多少有点相 似(图 4-6)。首先,这个选择必须依据分析者在排序图是要关注
分享到:
收藏