TCA(迁移成分分析)
(迁移成分分析)
TCA原版文章:S. J. Pan, I. W. Tsang, J. T. Kwok and Q. Yang, “Domain Adaptation via Transfer Component Analysis,” in
IEEE Transactions on Neural Networks, vol. 22, no. 2, pp. 199-210, Feb. 2011.doi: 10.1109/TNN.2010.2091281
https://zhuanlan.zhihu.com/p/26764147
,yS1
,ySn2
),⋅⋅⋅,(xSn1
问题描述
问题描述
源域(src)数据:源域数据 Ds=(xS1,yS1),⋅⋅⋅,(xSn1,ySn2)D_s = {(x_{S_1},y_{S_1}),···,(x_{S_{n_1}},y_{S_{n_2}})}Ds=
(xS1
目标域数据:DT=xT1,⋅⋅⋅,xTn2D_T = {{x_{T_1},···,x_{T_{n_2}}}}DT=xT1
目标:正确预测目标域数据的标签
假设P(XS)、Q(XT)P(X_S)、Q(X_T)P(XS)、Q(XT)分别是源域和目标域的边缘分布,一般来说,使用P≠QP \neq QP =Q,但
是条件分布P(YS∣XS)=Q(YT∣XT)P(Y_S|X_S) = Q(Y_T|X_T)P(YS∣XS)=Q(YT∣XT)
),其中xSx_SxS是输入,ySy_SyS是输出
,⋅⋅⋅,xTn2
最大均值差异(MMD)):
最大均值差异(
设X=x1,x2,⋅⋅⋅,xn1X={x_1,x_2,···,x_{n_1}}X=x1,x2,⋅⋅⋅,xn1
分布服从分布PPP和QQQ的随机变量,使用MMD距离估计两个分布的距离:
Dist(P,Q)=∣∣1n1∑i=1n1ϕ(xi)−1n1∑j=1n2ϕ(xj)∣∣HDist(P,Q) = ||\frac{1}{n_1}\sum_{i=1}^{n_1}\phi(x_i)-\frac{1}
{n_1}\sum_{j=1}^{n_2}\phi(x_j)||_HDist(P,Q)=∣∣n11i=1∑n1
ϕ(xi)−n11j=1∑n2
其中HHH是再生核希尔伯特空间,ϕ\phiϕ是X→HX \to HX→H的映射。
和Y=y1,y2,⋅⋅⋅,yn2Y=y_1,y_2,···,y_{n_2}Y=y1,y2,⋅⋅⋅,yn2
ϕ(xj)∣∣H
是
迁移成分分析(TCA))
迁移成分分析(
TCA的目标是在已知道源数据的输入XSX_SXS和输出YSY_SYS以及目标数据的输入XTX_TXT时,预测目标数据的输出
YTY_TYT,
TCA假设源数据和目标数据的边缘分布有很大的差异,但是条件分布P(YS∣XS)=Q(YT∣XT)P(Y_S|X_S) = Q(Y_T|X_T)P(YS
∣XS)=Q(YT∣XT)
TCA试图找到一种非线性映射ϕ\phiϕ:X→HX \to HX→H,使得源数据和目标数据经过非线性变换后(XS→XS′X_S \to
X^{‘}_SXS→XS′,XT→XT′X_T \to X^{‘}_TXT→XT′),其边缘分布相同(P(XS′)=Q(XT′)P(X^{‘}_S) = Q(X^{‘}_T)P(XS′)=Q(XT′
)),即TCA的目标是找到一个合适的映射,是经映射后的两个分布MMD距离最小:
minDist(XS′,XT′)=∣∣1n1∑i=1n1ϕ(xi)−1n1∑j=1n2ϕ(xj)∣∣Hmin Dist(X_S^{‘},X_T^{‘}) = ||\frac{1}
{n_1}\sum_{i=1}^{n_1}\phi(x_i)-\frac{1}{n_1}\sum_{j=1}^{n_2}\phi(x_j)||_HminDist(XS′,XT′)=∣∣n11i=1∑n1
ϕ(xj)∣∣H
ϕ(xi)−n11j=1∑n2
TCA目标优化
目标优化
],
KTSKTT
将MMD距离转换为矩阵形式(推导:https://zhuanlan.zhihu.com/p/26764147):
Dist(XS′,XT′)=tr(KL) (1) Dist(X_S^{‘},X_T^{‘}) = tr(KL)\space \space \space(1)Dist(XS′,XT′)=tr(KL) (1),
其中K是(n1+n2)×(n1+n2)K是(n_1+n_2)\times(n_1+n_2)K是(n1+n2)×(n1+n2)的核矩阵,K=[KSSKTSKSTKTT]K =
\begin{bmatrix}K_{SS} & K_{TS} \\K_{ST} & K_{TT} \end{bmatrix}K=[KSSKST
L={1n1,xi,xj∈DS1n2,xi,xj∈DT−1n1×n2,othersL=\begin{cases}
\frac{1}{n_1} ,&\text x_i,x_j \in D_S \\[2ex] \frac{1}{n_2},&\text x_i,x_j \in D_T \\[2ex] -\frac{1}{n_1\times n_2},&\text others
\end{cases}L=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧n11,n21,−n1×n21,xi,xj∈DSxi,xj∈DTothers
将核矩阵KKK进行分解:
K=(KK−12)(K−12K)K = (KK^{-\frac{1}{2}})(K^{-\frac {1}{2}}K)K=(KK−21)(K−21K),
使用一个m×(n1+n2)m\times (n_1+n_2)m×(n1+n2)的矩阵W~\widetilde WW将特征矩阵映射的m维空间:
K~=(KK−12W~)(W~TK−12K)=KWWTK\widetilde{K} = (KK^{-\frac{1}{2}}\widetilde W)(\widetilde W^TK^{-\frac {1}{2}}K) =
KWW^TKK=(KK−21W)(WTK−21K)=KWWTK
其中W=K−12W~W = K^{-\frac{1}{2}}\widetilde WW=K−21W
使用定义K~\widetilde KK将两个域的MMD距离转换为:
Dist(XS′,XT′)=tr(K~L)=tr((KWWTK)L)=tr(WTKLKW) (2)Dist(X_S^{‘},X_T^{‘}) = tr(\widetilde KL) =
tr((KWW^TK)L)=tr(W^TKLKW) \space\space\space(2)Dist(XS′,XT′)=tr(KL)=tr((KWWTK)L)=tr(WTKLKW) (2)
3.提取迁移成分
根据(2)式,核学习问题转变成:
minWtr(WTW)+μtr(WTKLKW)min_Wtr(W^TW)+\mu tr(W^TKLKW) minWtr(WTW)+μtr(WTKLKW)
s.t.WTKHKW=I (3)s.t.W^TKHKW =
I\space\space\space\space\space\space\space\space\space(3)s.t.WTKHKW=I (3)
其中tr(WTW)tr(W^TW)tr(WTW)是正则化项,控制WWW的复杂度,μ\muμ是折中系数
I∈Rm×mI\in R^{m\times m}I∈Rm×m,为单位矩阵
H=In1+n2−1n1+n211TH = I_{n_1+n_2}-\frac{1}{n_1+n_2}11^TH=In1+n2
量,WTKHKW=IW^TKHKW = IWTKHKW=I避免WWW的平方解。
优化问题(3)可以转化为:
minWtr((WTKLKW)−1WT(I+μKLK)W) (4)min_Wtr((W^TKLKW)^{-1}W^T(I+\mu
KLK)W)\space\space\space\space\space(4)minWtr((WTKLKW)−1WT(I+μKLK)W) (4)
或
maxWtr((WT+μ(KLK)W)−1WTKHKW) (5)max_Wtr((W^T+\mu(KLK)W)^{-
1}W^TKHKW)\space\space\space\space\space(5)maxWtr((WT+μ(KLK)W)−1WTKHKW) (5)
−n1+n2111T,是中心矩阵,111是全为1的列向
证明:
(3)式转化为拉格朗日对偶形式:
tr(WT(I+μKLK)W)−tr((WTKHKW−I)Z) (6)tr(W^T(I+\mu KLK)W)-tr((W^TKHKW-
I)Z)\space\space\space\space\space(6)tr(WT(I+μKLK)W)−tr((WTKHKW−I)Z) (6)
其中ZZZ为对称矩阵,
对(4)式求导等0,可得:
(I+μKLK)W=KHKWZ(I+\mu KLK)W=KHKWZ(I+μKLK)W=KHKWZ,
左右两端乘上WTW^TWT,可得(4)式,由于(I+μKLK)W(I+\mu KLK)W(I+μKLK)W是非奇异矩阵,故可得到其等价式(5)。
根据核函数Fisher鉴别(KFD),W的解是(I+μKLK)−1KHK(I+\mu KLK)^{-1}KHK(I+μKLK)−1KHK的前m个特征值。
作者:Lenlend