基于 Canoco 的 CCA 数据处理过程解析
一、 数据处理
1、数据格式要求
在 Excel 表格里面,你必须将数据做成矩形形式。默认的方式
(也是常用的方式)是一行代表一个样方,一列代表一个变量。
表格左顶格最好是空着。最好第一列和第一行分别有样方编号和
变量的名称。必须注意的是名称不能超过 8 个字符,如果超过 8
个字符,CANOCO 会自动截取前 8 个字符作为名称。变量名称最
好是英文字母、数字 、圆点或是连字符,空格也可以。
除了第一行和第一列,表格内剩下的填充内容必须是数字或
是空着,绝对不能使用字符型数据。定性变量(因子)必须转换
为哑变量(0‐1 数据)方可进入 CANOCO 分析。
当数据在 Excel 表格里按要求整理好后,将包含数据的矩形方
阵选定,然后选择“复制”按钮,此时数据便复制到剪贴板中。
WCanoImp 便 可 以 从 剪 贴 板 中 读 取 数 据 。 如 图 1‐2a 所 示 ,
WCanoImp 可以从“开始”菜单中 Canoco for windows 下来菜单中打
开。此时会弹出 WCanoImp 对话框,上半部分包含如何使用该程
序的简短信息,下半部分是一些可选框。如果在 Excel 表格数据是
按照默认方式组织你的数据,第一选项不必选,相反,如果是数
据结构正好相反,以列代表样方,以行代表变量,必须选中这个
“Each column is a Sample”选项。除非你的数据是样方很少而变量
很多(Excel 表格里面列数不能超过 256 列),否则不推荐用这种方
式组织数据。如果你没有样方或是变量没有编号或是名称,可以
选 择 下 面 两 个 选 框 , 程 序 会 帮 你 给 各 行 各 列 附 上 默 认 名 称
(Sample1,)。最后一个选项是问你是否存为压缩型数据类型,除
非你觉得硬盘空间不够大,否则不必选这个选项,是否选这个选
项中对于分析结果毫不影响。
当你确定所以的选择是正确的,你就可以按下 save 按钮,系
统弹出新的对话框让你选择保存新文件地方和取个文件名,之后
会让你给这个文件加个标注,这个标注内容将显示在新文件的数
据内容第一行,以便日后数据内容的识别。选定确认后,程序会
告诉你保存成功。
图 1‐2a WCanoimp 程序打开途径
图 1‐2 b 数据的参考模式及 WCanoimp 对话框
2、物种数据的转化
排序的过程在于寻找最佳预测响应变量的坐标轴,此时坐标轴
代表回归预测器(解释变量)(这些内容将在《基于 CANOCO 的
生态学数据的多元统计分析》第3章详细解释)。因此,在排序中
对响应变量进行转化,就好比在多重回归中要将很多物种数据转
化一个单因变量的形式一样。有点限制的是,在排序中,所有的
响应变量应该是做一致的转化,因为响应变量经常是同一属性的
数据,具有一致的量纲。在基于单峰模型(加权平均)的排序(见
3.2节),所有响应变量的数据不能是负值,这就要求某些带负值
的数据必须转化,而且对于转化的结 果有更严格的要求(不能为
负值)。
这个限定(非负值)对于对数转化更应该值得注意。因为1的对数
为0,而处于0‐1之间的值取对数是负值。因此,在CANOCO里面
提供了变通的对数转化公式:
在对y转化之前,你可设定上面公式中A和C的值,让输出的y`值保
证不小于0。在系统中,A和C默认值均为1,这样可以保证本来是
0的值,转化后仍为0,而其他的值依然是正的。然而,如果你的
原始值很小(比如说处于0‐0.1之间),可以将A的值适当增大,比
如说设为10。但对于百分比数据和普通的点数据,默认的转化
(log(y+1))是比较合适的。
什么情况下需要对响应变量进行对数转化是个很难回答的问题,
统计学家的答案也是五花八门。我们建议你不必太在意关于数据
的分布特征,比如原始数据不一定符合理想的正态分布,对于排
序来说,也不一定非要通过对数转化为正态分布的类型。是否需
要对数转化,关键还是比较原始数据和转化数据分析处理的最终
结果哪个更好解释你所要探讨的问题。
正如上面所描述那样,排序可以被看作多重回归的扩展,所以整
个排序方法可以用简单回归的语言来描述。你可以通过一个或多
个预测器(环境因子或排序轴)来预测一个响应变量(比如物种
的多度)。比如,在一元线形回归方程中(y=B0+BX+E),你可
以问当x变化一个单位时,y的平均值是如何变化的?如果自变量
和因变量都没有对数转化,你可以回答这个问题:当x增加一个单
位时候,y的增量是B。但在很多情况下,你可能更倾向听到这样
的解释,如果变量X增加一个单位,Y的量将增加10%,或是,y
增加1.1倍这样的话。显然,这已经并不是线形回归模型所能体现
出来的,因此,这种前情况下,你需要对响应变量进行对数转化。
同样,如果预测器(环境因子)变化是成倍增长,此时的环境变
量也应该被对数转化。
植物群落组成数据有时是半量化估计尺度数据,比如最典型
的例子是多度的Braun‐Blanquet等级估计(7个等级水平,分别为
r,+,1,2,3,4,5这7个标号表示)。这个等级估计经常在数据表格里用
1‐7的数据来代替原来的标号进行分析。其实,这个量化1‐7的数字
已经相当原始多度数据的对数转化,因为不同等级的多度变化往
往是成倍增加的,不是简单的单位量的变化。
在CANOCO里面另外一种有用的数据转化模式是平方根转
化。平方根转化更适合观测计数数据(count data),比如在土壤
收集器中收集到标本个体的数量,或是通过某一条标志线蚂蚁的
数量等等这样的观测数据。但对数转化对这样的数据进行转化也
是可以的。
当然,如果你觉得需要某种除了对数转化和平方根之外的数
据转化,你可以在数据输入 CANOCO 之前通过别的数据软件进
行。
3、 解释变量的转化
因为解释变量(环境因子变量,包括协变量)经常是样方的多
属性数据,量纲往往不一样的,所以你经常需要选择合适的转化
方法分别对环境变量进行单独转化。CANOCO里面并没有提供这
样的转化,因为很多环境因子在被输入CANOCO之前,就应该被
转化好。
但你应该知道,CANOCO 读了了环境变量或协变量后,它们
会自动被中心化和标准化,让它们的均值为 0 和方差为 1(这个转
化通常被称为“单位方差标准化”)。
4、 数据存储格式转换
用 wCanoImp 形成 canoco 可以识别的数字格式时,物种和环
境因子不同文件的命名最好差别别太大。
二、 统计分析
1、 决定排序的模型:单峰还是线性
在Canoco for Windows的分析过程,有一个关于模型的选择窗
口,你必须对排序的模型进行选择。为了选择更合适的模型,你
尽可能将各种模型都尝试一下,选择一个你最想要的分析结果及
排序图。当然,如果你不知道到底是用线性、还好单峰模型好,
有一个比较简单方法可以帮助你来选择。可以先将物种数据进行
DCA分析,其他的窗口的选项均可以选择默认程序。分析完成后,
在“Log View”内,各轴特征根分析那部分,可以找到“Lengths of
gradient”这样一栏信息,这个“Lengths of gradient”是展示每个轴的
梯度长度。如果这四个轴中梯度最长(最大值)超过4,选择单峰
模型排序(CA、CCA、DCA)更合适。如果是小于3,选择线性
模型(PCA、RDA)比较合理。如果介于3-4之间,单峰模型和线
性模型都是合适的。当然,这个选择并不是绝对的,最长梯度小
于3,依然可以用单峰模型,因为线性模型可以看作单峰模型一种
特例。但是梯度大于4,最好还是不用线性模型,线性模型可能误
差比较大,会丢失比较多的信息。
当你选择单峰还是线形模型的时候,你必须预先认识到,不是
所有的数据类型都是适合用单峰模型,比如物种数据是不同量纲的
数据(单位不一致)就不适合做单峰模型的排序。还有,如果有个样
方的空的(即值都为 0),这样的数据进行单峰排序分析,系统会
自动告诉你有空的样方,不能进行分析。如果非要做单峰模型的
排序分析,首先要把这些空样方去掉。
2、 导入数据
⑴根据所选择的排序类型在 Available Data 对话框中选出所要导入
的数据类型
⑵在 Data File 对话框中从数据存贮地导入数据
【注:这里的可能会涉及到协变量,而这所说的协变量不同于通
常统计中的协变量。当我们在解释变量(环境因子数据)与响应
变量(物种数据)之间建立预测模型的时候,经常会遇到这样的
情况,往往我们仅仅考察解释变量中某几个环境因子的对物种数
据的影响,但剩下的环境因子也会对物种产生影响,这些剩余环
境因子我们经常称为协变量(Covariables) 。在CANOCO中,协变
量的影响可以用偏分析(partial analyze)剔除出来。
实际上,任何一个环境因子变量均可以成为协变量。例如,我们
要研究管理模式对蝴蝶群落中组成的影响,我们可以在不同的海
拔地点取样,海拔也许对群落物种组成影响很大,但此时我们感
兴趣的是管理模式的影响,而非海拔梯度的影响。这个时候,如
果能剔除出海拔的影响,我们能管理模型与蝴蝶种群之间更清晰
的关系。】
3、 在 Type of Analysis 中选择适当的梯度分析方法
4、 选择适当的排序得分(坐标)的尺度比例
排序最重要的结果是排序图。通过排序图,理论上讲,不仅
可以重建(有一定水平的误差)原始数据结构(物种数据),也可
以重建样方之间相似(相异)矩阵和物种之间的相关矩阵。但没
有人会想从排序图里面恢复真正的原始被测数据,因为原始数据
已经有了。但原始数据对于排序图内容的解释和提炼出感兴趣的
假设是很有用的。对于样方的相似度、物种或环境因子的相关性
等的解释的准确性,部分取决于在排序轴坐标的相对尺度比例
(relative scaling)。Object(样方,物种和环境因子)在排序空间的
绝对值没有任何意义。在解释排序图的,我们使用相对距离,相
对方向和投影点的相对次序。
这个可选的尺度比例让排序图展示不同相对比例,以便更好
解释你想要探讨的问题。但是这个选择并不影响整个分析的结果。
这里“Focus scaling on” 选择在线性和单峰方法中,多少有点相
似(图 4-6)。首先,这个选择必须依据分析者在排序图是要关注