Post

逆方差加权法

逆方差加权法(inverse-variance weighted,*IVW*)

在具体介绍方法前,我们先将数据的符号定义清楚:

  • 表型定义:假设 $X$ 和 $Y$ 分别表示暴露因素(exposure)和研究结局(outcome)两个复杂表型对应的随机变量;

  • 基因型定义:基因型矩阵使用 $G=(g_1,g_2,\cdots,g_j,\cdots)$ 表示,$g_j$ 表示第 $j$ 个人对应的基因型向量。为了后面计算方便,我们假设所有的数据都进行了标准化,即 $E[X] = E[Y] = E[G] = 0$ 且 $Var(X) = Var(Y) = Var(G) = 1$.

  • 样本定义:MR通常是两样本MR研究,这里我们假设暴露因素 $X$ 在样本量为 $n_A$ 的$A$ 样本中观察得到;假设研究结局Y在样本量为 $n_B$ 的 $B$ 样本中观察得到。两样本MR方法通常假设暴露因素和研究结局来自不同的两个样本,即 $A\cap B=\varnothing$ ,这里我们暂时不讨论存在样本重叠的问题。

  • 暴露因素$X$ 和研究结局 $Y$ 的线性关系假设

\[x^A = G^A \times \gamma_x + \epsilon_x^A\] \[x^B = G^B \times \gamma_x + \epsilon_x^B\] \[y^B = \alpha \times x^B + G^B \times \gamma_y + \epsilon_y^B\]

其中 $\gamma_x$ 表示基因型 $G$ 对暴露因素 $X$ 的效应大小,$\gamma_y$ 表示在排除$x^B$的影响后基因型对研究结局的效应大小。A样本和B样本中的暴露因素X分开表示是因为不同样本个体会存在不同基因型,且会存在不同的随机效应,如果不存在样本重叠,那么 $cor(\epsilon^A_x,\epsilon^B_x) = 0$.

我们将MR分析中所有的原始数据定义好了,下一步是推导出我们可以观察到的GWAS关联信号。我们从GWAS中获得的$\beta$ 和 $se$ 信息来自已经做好的的线性回归结果,其原始公式为:

\[(\hat \beta_x)^A_j = \frac{(g_j^A)'\times x^A}{n_A \cdot Var(g_j^A)} = \frac{1}{n_A} \cdot (g_j^A)'\times (G^A \times \gamma_x + \epsilon_x^A)\] \[(\hat \beta_y)^B_j = \frac{(g_j^B)'\times y^B}{n_B \cdot Var(g_j^B)} = \frac{1}{n_B} \cdot (g_j^B)'\times (G^B \times \gamma_y + \epsilon_y^B)\]

我们从GWAS中根据P值选择工具变量,通常我们还会进行LD-pruning操作,剔除存在LD关联的工具变量,确保最终用于分析的工具变量不存在相关性。单个工具变量可以直接通过比率进行估计,如对于工具变量 $j$ :

\[\hat \alpha_j = \frac{(\hat \beta_y)^B_j}{(\hat \beta_x)^A_j},\] \[Var(\hat \alpha_j) = \frac{Var((\hat \beta_y^B)_j)}{((\hat \beta_x)^A_j)^2} = \frac{[1 - Var(\alpha \times x^B + G^B \times \gamma_y)]/n_B}{((\hat \beta_x)^A_j)^2} = \frac{1 - \alpha^2 - \gamma^2_{y_j}}{n_B\times ((\hat \beta_x)^A_j)^2}\]

注:这里对方差的估计是一种近似,通常根据暴露因素选择工具变量与暴露因素非常相关,所以$(\hat \beta_x)^A_j$ 非常大,可以将它近似为一个常数。当然还可以使用delta方法计算精确的方差。

然后我们将方差取倒数作为权重:

\[w_j = \frac{1}{Var(\hat \alpha_j)} = \frac{n_B\times (\hat \beta_x^A)^2}{(1 - \alpha^2 -\gamma_{y_j}^2)}.\]

最终将权重归一化,我们可以得到逆方差加权的结果:

\[\hat \alpha_{IVW} = \frac{\sum_j \hat \alpha_j \times w_j}{\sum_j w_j} \\ = \frac{\sum_j \frac{(\hat \beta_y)^B_j}{(\hat \beta_x)^A_j} \times \frac{n_B\times (\hat \beta_x^A)_j^2}{(1 - \alpha^2 -\gamma_{y_j}^2)}}{\sum_j \frac{n_B\times (\hat \beta_x^A)_j^2}{(1 - \alpha^2 -\gamma_{y_j}^2)}} \\ = \frac{\frac{(\hat \beta_y^B)_j \times (\hat \beta_x^A)_j}{(1 - \alpha^2 -\gamma_{y_j}^2)}}{\sum_j \frac{(\hat \beta_x^A)_j^2}{(1 - \alpha^2 -\gamma_{y_j}^2)}} \\ \approx \frac{\frac{(\hat \beta_y^B)_j \times (\hat \beta_x^A)_j}{(1 - \alpha^2)}}{\sum_j \frac{(\hat \beta_x^A)_j^2}{(1 - \alpha^2)}} \\ = \frac{\sum_j (\hat \beta_y^B)_j \times (\hat \beta_x^A)_j}{\sum_j ((\hat \beta_x^A)_j)^2}\]

方差的计算就更简单了:

\[Var(\hat \alpha_{IVW}) = \frac{\sum_j w_j^2\cdot Var(\hat \alpha_j)}{(\sum_j w_j)^2} = \frac{\sum_j w_j}{(\sum_j w_j)^2} = \frac{1}{\sum_j w_j}\]

$\hat \alpha_{IVW}$ 的估计有一个约等于,这是因为我们选择工具变量是通过暴露因素选择的,所以$\gamma_{y_j}$ 会很小几乎可以忽略不计;$\gamma_{y_j}$还有一个名称是多效性效应,如果这个多效性不能忽略,那将会影响IVW的估计结果,避免多效性的影响也是Egger等很多MR方法尝试解决的问题。

This post is licensed under CC BY 4.0 by the author.