logo资料库

TCA(迁移成分分析).pdf

第1页 / 共2页
第2页 / 共2页
资料共2页,全文预览结束
TCA(迁移成分分析) (迁移成分分析) TCA原版文章:S. J. Pan, I. W. Tsang, J. T. Kwok and Q. Yang, “Domain Adaptation via Transfer Component Analysis,” in IEEE Transactions on Neural Networks, vol. 22, no. 2, pp. 199-210, Feb. 2011.doi: 10.1109/TNN.2010.2091281 https://zhuanlan.zhihu.com/p/26764147 ​,yS1​ ​,ySn2​ ​),⋅⋅⋅,(xSn1​ 问题描述 问题描述 源域(src)数据:源域数据 Ds=(xS1,yS1),⋅⋅⋅,(xSn1,ySn2)D_s = {(x_{S_1},y_{S_1}),···,(x_{S_{n_1}},y_{S_{n_2}})}Ds​= (xS1​ 目标域数据:DT=xT1,⋅⋅⋅,xTn2D_T = {{x_{T_1},···,x_{T_{n_2}}}}DT​=xT1​ 目标:正确预测目标域数据的标签 假设P(XS)、Q(XT)P(X_S)、Q(X_T)P(XS​)、Q(XT​)分别是源域和目标域的边缘分布,一般来说,使用P≠QP \neq QP​=Q,但 是条件分布P(YS∣XS)=Q(YT∣XT)P(Y_S|X_S) = Q(Y_T|X_T)P(YS​∣XS​)=Q(YT​∣XT​) ​),其中xSx_SxS​是输入,ySy_SyS​是输出 ​,⋅⋅⋅,xTn2​ 最大均值差异(MMD)): 最大均值差异( 设X=x1,x2,⋅⋅⋅,xn1X={x_1,x_2,···,x_{n_1}}X=x1​,x2​,⋅⋅⋅,xn1​ 分布服从分布PPP和QQQ的随机变量,使用MMD距离估计两个分布的距离: Dist(P,Q)=∣∣1n1∑i=1n1ϕ(xi)−1n1∑j=1n2ϕ(xj)∣∣HDist(P,Q) = ||\frac{1}{n_1}\sum_{i=1}^{n_1}\phi(x_i)-\frac{1} {n_1}\sum_{j=1}^{n_2}\phi(x_j)||_HDist(P,Q)=∣∣n1​1​i=1∑n1​ ​ϕ(xi​)−n1​1​j=1∑n2​ 其中HHH是再生核希尔伯特空间,ϕ\phiϕ是X→HX \to HX→H的映射。 ​和Y=y1,y2,⋅⋅⋅,yn2Y=y_1,y_2,···,y_{n_2}Y=y1​,y2​,⋅⋅⋅,yn2​ ​ϕ(xj​)∣∣H​ ​是 迁移成分分析(TCA)) 迁移成分分析( TCA的目标是在已知道源数据的输入XSX_SXS​和输出YSY_SYS​以及目标数据的输入XTX_TXT​时,预测目标数据的输出 YTY_TYT​, TCA假设源数据和目标数据的边缘分布有很大的差异,但是条件分布P(YS∣XS)=Q(YT∣XT)P(Y_S|X_S) = Q(Y_T|X_T)P(YS​ ∣XS​)=Q(YT​∣XT​) TCA试图找到一种非线性映射ϕ\phiϕ:X→HX \to HX→H,使得源数据和目标数据经过非线性变换后(XS→XS′X_S \to X^{‘}_SXS​→XS′​,XT→XT′X_T \to X^{‘}_TXT​→XT′​),其边缘分布相同(P(XS′)=Q(XT′)P(X^{‘}_S) = Q(X^{‘}_T)P(XS′​)=Q(XT′​ )),即TCA的目标是找到一个合适的映射,是经映射后的两个分布MMD距离最小: minDist(XS′,XT′)=∣∣1n1∑i=1n1ϕ(xi)−1n1∑j=1n2ϕ(xj)∣∣Hmin Dist(X_S^{‘},X_T^{‘}) = ||\frac{1} {n_1}\sum_{i=1}^{n_1}\phi(x_i)-\frac{1}{n_1}\sum_{j=1}^{n_2}\phi(x_j)||_HminDist(XS′​,XT′​)=∣∣n1​1​i=1∑n1​ ϕ(xj​)∣∣H​ ​ϕ(xi​)−n1​1​j=1∑n2​ TCA目标优化 目标优化 ​], ​KTS​KTT​ 将MMD距离转换为矩阵形式(推导:https://zhuanlan.zhihu.com/p/26764147): Dist(XS′,XT′)=tr(KL) (1) Dist(X_S^{‘},X_T^{‘}) = tr(KL)\space \space \space(1)Dist(XS′​,XT′​)=tr(KL) (1), 其中K是(n1+n2)×(n1+n2)K是(n_1+n_2)\times(n_1+n_2)K是(n1​+n2​)×(n1​+n2​)的核矩阵,K=[KSSKTSKSTKTT]K = \begin{bmatrix}K_{SS} & K_{TS} \\K_{ST} & K_{TT} \end{bmatrix}K=[KSS​KST​ L={1n1,xi,xj∈DS1n2,xi,xj∈DT−1n1×n2,othersL=\begin{cases} \frac{1}{n_1} ,&\text x_i,x_j \in D_S \\[2ex] \frac{1}{n_2},&\text x_i,x_j \in D_T \\[2ex] -\frac{1}{n_1\times n_2},&\text others \end{cases}L=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧​n1​1​,n2​1​,−n1​×n2​1​,​xi​,xj​∈DS​xi​,xj​∈DT​others​ 将核矩阵KKK进行分解: K=(KK−12)(K−12K)K = (KK^{-\frac{1}{2}})(K^{-\frac {1}{2}}K)K=(KK−21​)(K−21​K), 使用一个m×(n1+n2)m\times (n_1+n_2)m×(n1​+n2​)的矩阵W~\widetilde WW将特征矩阵映射的m维空间: K~=(KK−12W~)(W~TK−12K)=KWWTK\widetilde{K} = (KK^{-\frac{1}{2}}\widetilde W)(\widetilde W^TK^{-\frac {1}{2}}K) = KWW^TKK=(KK−21​W)(WTK−21​K)=KWWTK 其中W=K−12W~W = K^{-\frac{1}{2}}\widetilde WW=K−21​W 使用定义K~\widetilde KK将两个域的MMD距离转换为: Dist(XS′,XT′)=tr(K~L)=tr((KWWTK)L)=tr(WTKLKW) (2)Dist(X_S^{‘},X_T^{‘}) = tr(\widetilde KL) = tr((KWW^TK)L)=tr(W^TKLKW) \space\space\space(2)Dist(XS′​,XT′​)=tr(KL)=tr((KWWTK)L)=tr(WTKLKW) (2) 3.提取迁移成分 根据(2)式,核学习问题转变成: minWtr(WTW)+μtr(WTKLKW)min_Wtr(W^TW)+\mu tr(W^TKLKW) minW​tr(WTW)+μtr(WTKLKW) s.t.WTKHKW=I (3)s.t.W^TKHKW = I\space\space\space\space\space\space\space\space\space(3)s.t.WTKHKW=I (3) 其中tr(WTW)tr(W^TW)tr(WTW)是正则化项,控制WWW的复杂度,μ\muμ是折中系数 I∈Rm×mI\in R^{m\times m}I∈Rm×m,为单位矩阵 H=In1+n2−1n1+n211TH = I_{n_1+n_2}-\frac{1}{n_1+n_2}11^TH=In1​+n2​ 量,WTKHKW=IW^TKHKW = IWTKHKW=I避免WWW的平方解。 优化问题(3)可以转化为: minWtr((WTKLKW)−1WT(I+μKLK)W) (4)min_Wtr((W^TKLKW)^{-1}W^T(I+\mu KLK)W)\space\space\space\space\space(4)minW​tr((WTKLKW)−1WT(I+μKLK)W) (4) 或 maxWtr((WT+μ(KLK)W)−1WTKHKW) (5)max_Wtr((W^T+\mu(KLK)W)^{- 1}W^TKHKW)\space\space\space\space\space(5)maxW​tr((WT+μ(KLK)W)−1WTKHKW) (5) ​−n1​+n2​1​11T,是中心矩阵,111是全为1的列向 ​ ​ ​ ​ ​
证明: (3)式转化为拉格朗日对偶形式: tr(WT(I+μKLK)W)−tr((WTKHKW−I)Z) (6)tr(W^T(I+\mu KLK)W)-tr((W^TKHKW- I)Z)\space\space\space\space\space(6)tr(WT(I+μKLK)W)−tr((WTKHKW−I)Z) (6) 其中ZZZ为对称矩阵, 对(4)式求导等0,可得: (I+μKLK)W=KHKWZ(I+\mu KLK)W=KHKWZ(I+μKLK)W=KHKWZ, 左右两端乘上WTW^TWT,可得(4)式,由于(I+μKLK)W(I+\mu KLK)W(I+μKLK)W是非奇异矩阵,故可得到其等价式(5)。 根据核函数Fisher鉴别(KFD),W的解是(I+μKLK)−1KHK(I+\mu KLK)^{-1}KHK(I+μKLK)−1KHK的前m个特征值。 作者:Lenlend
分享到:
收藏