Apéndice E — Formas Cuadráticas

E.1 Definiciones y Resultados Básicos

Definición E.1 (Formas Cuadráticas) Sean \(\boldsymbol{x}\in \mathbb{R}^n\), \(A=[a_{ij}]\), \(n\times n\), matriz. Definimos \(f:\mathbb{R}^n\rightarrow \mathbb{R}\) como \[ \boldsymbol{x}^{\top}A\boldsymbol{x}=\sum_i\sum_j x_ia_{ij}x_j. \] \(f\) se denomina forma cuadrática.

Proposición E.1 (Unicidad) Si \(A\) y \(B\) son matrices \(n\times, n\), simétricas y \(\boldsymbol{x}^{\top}A\boldsymbol{x}=\boldsymbol{x}^{\top}B\boldsymbol{x}\), para todo \(\boldsymbol{x}\in \mathbb{R}^n\), entonces \(A=B\).

Teorema E.1 (Media de formas cuadráticas) Sea \(\boldsymbol{X}=(X_1,\ldots, X_n)^{\top}\) un vector aleatorio y \(A\) una matriz simétrica de \(n\times n\). Si \(\mathbb{E}(X)=\boldsymbol{\mu}\) y \(\operatorname{Var}(X)=\Sigma,\) entonces \[ \mathbb{E}(\boldsymbol{X}^{\top} A \boldsymbol{X})=\operatorname{tr}(A\Sigma)+\boldsymbol{\mu}^{\top}A\boldsymbol{\mu}. \]

\[ \begin{aligned} \mathbb{E}(\boldsymbol{X}^{\top} A \boldsymbol{X})&= \operatorname{tr}\left[\mathbb{E}(\boldsymbol{X}^{\top} A \boldsymbol{X})\right]=\mathbb{E}\left[\operatorname{tr}\left(\boldsymbol{X}^{\top} A \boldsymbol{X}\right)\right]\\ &=\mathbb{E}\left[\operatorname{tr}\left(A \boldsymbol{X}\boldsymbol{X}^{\top}\right)\right]\qquad \because \operatorname{tr}(AC)=\operatorname{tr}(CA) (\text{si las dimensiones lo permiten})\\ &=\operatorname{tr}[\mathbb{E}(A \boldsymbol{X}\boldsymbol{X}^{\top})]=A\operatorname{tr}[\mathbb{E}( \boldsymbol{X}\boldsymbol{X}^{\top})]\\ &=\operatorname{tr}\left(A\left[\operatorname{Var}(\boldsymbol{X})+\boldsymbol{\mu}\boldsymbol{\mu}^{\top}\right]\right)=\operatorname{tr}(A\Sigma)+\operatorname{tr}\left(A\boldsymbol{\mu}\boldsymbol{\mu}^{\top}\right)\\ &= \operatorname{tr}(A\Sigma)+\boldsymbol{\mu}^{\top}A\boldsymbol{\mu}. \end{aligned} \]

Un caso particular es cuando \(\sigma=\sigma^2I_n\), donde tenemos \(\operatorname{tr}(A\Sigma)=\sigma^2\operatorname{tr}(A)\).

Ejemplo 1:

Si \(X_1,\ldots, X_n\) son v.a. i.i.d. con media \(\mu\) y varianza \(\sigma^2\). Queremos encontrar el valor esperado de \[ M=(X_1-X_2)^2+(X_2-X_3)^2+\cdots+(X_{n-1}-X_n)^2. \] Se puede mostrar que \[ M=\boldsymbol{X}^{\top}A\boldsymbol{X} = 2\sum_{i=1}^nX_i^2-X_1^2-X_n^2-2\sum_{i=1}^{n-1}X_iX_{i+1}. \] Como \(\operatorname{Cov}(X_i,X_j)=0\) para \(i\ne j\), \(\Sigma=\sigma^2 I_n\) y \[ a_{ii} = \left\{ \begin{array}{lr} 2, & \text{si } \quad i \neq 1,\ n\\ 1, & \text{si }\quad i=1,\ n \end{array} \right. \] Entonces \(\operatorname{tr}(A)=2(n-2)+2=2n-4+2=2n-2\).

Para examinar \(\boldsymbol{\mu}^{\top}A\boldsymbol{\mu}\) nos remitimos a \(\boldsymbol{X}^{\top}A\boldsymbol{X}\) solo subtituyendo \(\boldsymbol{X}\) por \(\boldsymbol{\mu}\): \[ \boldsymbol{\mu}^{\top}A\boldsymbol{\mu}=2\sum_{i=1}^n\mu^2-\mu^2-\mu^2-2\sum_{i=1}^{n-1}\mu^2=2\mu^2-2\mu^2=0. \] Entonces  \(\mathbb{E}(M)=\sigma^2(2n-2)\).

Ejemplo 2:

Sea \(\boldsymbol{X}=(X_1,\ldots, X_n)^{\top}\) donde \(\mathbb{E}(X_i)=\mu\), \(i=1,\ldots,n\) y \(\operatorname{Var}(\boldsymbol{X})=\Sigma\) con \(\sigma_{ii}=\sigma^2\) y \(\sigma_{ij}=\rho\sigma^2\), \(i\ne j\). Queremos encontrar el valor esperado de \[ M=\sum_{i=1}^n(X_i-\overline{\boldsymbol{X}})^2. \]

Queremos expresar \(M\) de la forma \(\boldsymbol{X}^{\top}A\boldsymbol{X}\). Como \[ \begin{aligned} M&=\sum_{i=1}^nX_i^2-n\overline{\boldsymbol{X}}^2\\ &=\sum_{i=1}^nX_i^2-\frac{1}{n}\left(\sum_{i=1}^nX_i^2+\mathop{\sum\sum}_{i\neq j} X_iX_j\right)\\ &=\sum_{i=1}^n\left(1-\frac{1}{n}\right)X_i^2-\frac{1}{n}\mathop{\sum\sum}_{i\neq j} X_iX_j. \end{aligned} \] Entonces \(M=\boldsymbol{X}^{\top}A\boldsymbol{X}\) con \[ A=[\delta_{ij}-1/n]=\left( \begin{array}{cccc} 1-\frac{1}{n} & -\frac{1}{n} & \cdots & -\frac{1}{n}\\ -\frac{1}{n} & 1-\frac{1}{n} & \cdots & -\frac{1}{n}\\ \vdots & \vdots &\ddots&\vdots\\ -\frac{1}{n} & -\frac{1}{n} & \cdots & 1-\frac{1}{n} \end{array} \right) \quad \text{y } \quad \Sigma =\sigma^2\left( \begin{array}{cccc} 1 & \rho & \cdots & \rho\\ \rho & 1 & \cdots & \rho\\ \vdots & \vdots &\ddots&\vdots\\ \rho & \rho & \cdots & 1 \end{array} \right) \] Sin importar cual es el valor de \(\rho\), se verifica que \(\boldsymbol{\mu}^{\top}A\boldsymbol{\mu}=0\).

Cuando \(\rho=0\) entonces \(\mathbb{E}(M)=\sigma^2\operatorname{tr}(A)=\sigma^2n(1-1/n)=\sigma^2(n-1).\)

Cuando \(\rho\ne 0\)

Entonces \[ [A\Sigma]_{ij}=\left\{ \begin{array}{lr} \sigma^2\left(1-\frac{1}{n}-\frac{n-1}{n}\rho\right), & \text{si } \quad i=j\\ \sigma^2\left[\left(1-\frac{1}{n}\right)\rho-\frac{1}{n}-\frac{n-2}{n}\rho\right], & \text{si }\quad i\ne j \end{array} \right. \] Entonces \[ [A\Sigma]_{ij}=\left\{ \begin{array}{lr} \sigma^2\left(1-\frac{1}{n}\right)\left(1-\rho\right), & \text{si } \quad i=j\\ \sigma^2\left[-\frac{1}{n}\left(1-\rho\right)\right], & \text{si }\quad i\ne j \end{array} \right. \] Por lo tanto, \(\mathbb{E}(M)=\operatorname{tr}(A\Sigma)=\sigma^2(n-1)(1-\rho)\).

Teorema E.2 (Varianza de formas cuadráticas) Si \(X_1,X_2,\ldots, X_n\) son v.a.i. con medias \(\mu_1,\mu_2,\ldots,\mu_n\), varianza común \(\sigma_2\) y tercer y cuarto momentos centrales \(m_3=\mathbb{E}[(X_i-\mu_i)^3]\) y \(m_4=\mathbb{E}[(X_i-\mu_i)^4]\). Si \(A\) es una matriz simétrica \(n\times n\) con \(\boldsymbol{a}=\operatorname{diag}(A)\), entonces \[ \operatorname{Var}(\boldsymbol{X}^{\top} A \boldsymbol{X})=(m_4-3\sigma^4)\boldsymbol{a}^{\top}\boldsymbol{a}+2\sigma^4\operatorname{tr}(A^2)+4\sigma^2\boldsymbol{\mu}^{\top}A^2\boldsymbol{\mu}+4m_3\boldsymbol{\mu}^{\top}A\boldsymbol{a}. \]

E.2 Funciones cuadráticas de distribuciones Normales

Nos interesa conocer la distribución de expresiones del tipo \[ \boldsymbol{Y}^{\top}A\boldsymbol{Y} = \sum_{i=1}^n \sum_{j=1}^n Y_ia_{ij}Y_j, \] donde \(\boldsymbol{Y}\sim N_n(\boldsymbol{\mu}, \Sigma)\).

Proposición E.2 Podemos asumir que \(A\) es simétrica ya si definimos \(A^*\) con \(a^*_{ij}=(a_{ij}+a_{ji})/2\) (ie \(A^*=AA^{\top}/2\)), entonces \(\boldsymbol{Y}^{\top}A^*\boldsymbol{Y}=\boldsymbol{Y}^{\top}A\boldsymbol{Y}\).

Teorema E.3 (Varianza de formas cuadráticas caso Normal) Si \(\boldsymbol{Y} \sim N_n(\boldsymbol{\mu}, \Sigma)\), \[ \operatorname{Var}\left[\mathbf{Y}^{\top} A \boldsymbol{Y}\right]=2 \operatorname{tr}(A \Sigma A \Sigma)+4 \boldsymbol{\mu}^{\top} A \Sigma A \boldsymbol{\mu}. \]

Ejercicio

Para cualquier vector \(\boldsymbol{g}\) y cualquier matriz \(W\) definida postiva, podemos expresar la exponencial de la función cuadrática como proporcional a la integral del kernel Normal Multivariado.

Proposición E.3 Si \(\boldsymbol{g}\) es un vector de longitud \(n\) y \(W\) es una matriz \(n \times n\) definida positiva, entonces \[ (2 \pi)^{n/2}|W|^{1/2} \exp\left(\frac{1}{2} \boldsymbol{g}^{\top}W\boldsymbol{g}\right)=\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2} \boldsymbol{Y}^{\top} W^{-1} \boldsymbol{Y}+\boldsymbol{g}^{\top} \boldsymbol{Y}\right) dY_1 \ldots dY_n. \]

La demostración es directa usando la integral de la fd \(N_n(\boldsymbol{\mu},W)\). \[ \begin{aligned} (2 \pi)^{\frac{1}{2} n}|W|^{\frac{1}{2}} & =\int_{-\infty}^{\infty} \cdots \int_{\infty}^{\infty} \exp \left[-\frac{1}{2}(\boldsymbol{Y}-\boldsymbol{\mu})^{\top} W^{-1}(\boldsymbol{Y}-\boldsymbol{\mu})\right] dY_1 \ldots d Y_n \\ & =\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2} \boldsymbol{Y}^{\top} W^{-1} \boldsymbol{Y}+\boldsymbol{\mu}^{\top} W^{-1} \boldsymbol{Y}-\frac{1}{2} \boldsymbol{\mu}^{\top} W^{-1} \boldsymbol{\mu}\right) d Y_1 \ldots d Y_n \end{aligned} \] En considerar \(\boldsymbol{g}^{\top} = \boldsymbol{\mu}^{\top} W^{-1}\) tenemos que el segundo término de la exponencial \[ \boldsymbol{\mu}^{\top} W^{-1} \boldsymbol{Y}=\boldsymbol{g}^{\top}\boldsymbol{Y} \] y el tercero \[ \boldsymbol{\mu}^{\top} W^{-1} \boldsymbol{\mu} = \boldsymbol{\mu}^{\top} W^{-1}WW^{-1} \boldsymbol{\mu}=\boldsymbol{g}^{\top}W\boldsymbol{g}. \] De donde se verifica la proposición.

Proposición E.4 Sea \(\boldsymbol{Z}\sim N_n(\boldsymbol{0}, I_n)\). Si \(T\) es ortogonal entonces \(\boldsymbol{Y}=T^{\top}\boldsymbol{Z}\) tiene distribución \(N_n(\boldsymbol{0}, I_n)\).

Ejemplo:

Gracias a la Proposición E.4, que ahora debe ser trivial probar, y la descomposición espectral Teorema C.6, tenemos que \(A=T\Lambda T^{\top}\) con \(T\) ortogonal, así que \[ \boldsymbol{Y}^{\top}A\boldsymbol{Y}=\boldsymbol{Y}^{\top} T\Lambda T^{\top} \boldsymbol{Y}=\boldsymbol{Z}^{\top}\Lambda\boldsymbol{Z}=\sum_{i=1}^n \lambda_i Z_i^2 \] Así que \(\boldsymbol{Y}^{\top}A\boldsymbol{Y}\) es la combinación lineal de v.a.i.’s con distribución \(\chi^2(1)\).

No es trivial encontrar la distribución precisa para valores arbitrarios de los coeficientes, pero si los eigenvalores son 0’s o 1’s y \(r\) de ellos son 1’s, entonces la distribución de \(\boldsymbol{Y}^{\top}A\boldsymbol{Y}\) es \(\chi^2(r)\). Esto motiva los siguientes resultados.

Teorema E.4 Sea \(Y\sim N_n(\boldsymbol{0},I_n)\) y sea \(A\) una matriz simétrica. Entonces \[ \boldsymbol{Y}^{\top}A\boldsymbol{Y}\sim \chi^2(r) \] ssi \(A\) es idempotente y de rango igual a \(r\).

\(\mathbf{\Leftarrow )}\)

La demostración es trivial considerando Proposición E.4, el ejemplo y comentarios anteriores, así como que el rango de una matriz idempotente sólo puede tener eigenvalores 0’s y 1’s y el número de 1’s es su rango.

\(\mathbf{\Rightarrow )}\)

Para demostrar que \(A\) es idempotente y con rango \(r\) basta con mostrar que \(r\) de los eigenvlaroes de A son 1 y el resto 0. El resto de la demostración se deja como ejercicio.

Ejemplo:

Si \(A=I_n\) y considerando \(Z_i=\left(\frac{X_i-\mu}{\sigma_i}\right)\), obtenemos el resultado en Teorema D.2.

Ejemplo: Teorema D.4

Sea \(Y \sim N_n(\boldsymbol{\mu}, \sigma^2I_n)\) y sea \[ S^2=\frac{\sum_{i=1}^n(Y_i-\overline{Y})^2}{n-1}, \] entonces (como en Teorema D.4) \[ W:=\frac{\sum_{i=1}^n(Y_i-\overline{Y})^2}{\sigma^2}=\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1). \] Verificamos el cumplimiento de las condiciones del teorema. Podemos escribir \(W\) como \[ \frac{1}{\sigma^2}\boldsymbol{Y}^{\top}Q\boldsymbol{Y}\ \ \ \text{con } \ \ \ \ Q=I_n-\frac{1}{n}(1_{n\times n}) \tag{E.1}\] donde \(Q\) es simétrica e idempotente. Ahora definimos \[ \boldsymbol{Z}=\frac{1}{\sigma}(\boldsymbol{Y}-\boldsymbol{\mu}) \quad \Rightarrow \quad \boldsymbol{Z}\sim N(0,I_n). \] Pero \[ \boldsymbol{Z}^{\top}Q\boldsymbol{Z}=\frac{1}{\sigma}(\boldsymbol{Y}-\boldsymbol{\mu}) ^{\top}Q\frac{1}{\sigma}(\boldsymbol{Y}-\boldsymbol{\mu}) =\frac{1}{\sigma}\boldsymbol{Y}^{\top} Q \frac{1}{\sigma}\boldsymbol{Y}^{\top}=\frac{1}{\sigma^2}\boldsymbol{Y}^{\top}Q\boldsymbol{Y}=W, \ \ \because \ \boldsymbol{\mu}^{\top}Q\boldsymbol{\mu}=0. \] Entonces podemos aplicar el Teorema E.4. Para calcular el rango, usamos la Proposición C.18 \[ \operatorname{rango}(Q)=\operatorname{rango}\left(I_n-\frac{1}{n}1_{n\times n}\right) = \operatorname{tr}\left(I_n-\frac{1}{n}1_{n\times n}\right)=\operatorname{tr}\left(I_n\right)-\frac{1}{n}\operatorname{tr}\left(1_{n\times n}\right)=n-1. \] Por lo tanto, \(W\sim \chi_{n-1}^2\).

Teorema E.5 Sea \(Y\sim N_n(\boldsymbol{0}, \Sigma)\) y sea \(A\) una matriz simétrica. Entonces \[ \boldsymbol{Y}^{\top}A\boldsymbol{Y}\sim \chi_r^2 \] ssi \(r\) de los eigenvalores de \(A\Sigma\) son 1’s y los restantes son 0’s.

\(\mathbf{\Leftarrow )}\)

Ejercicio

\(\mathbf{\Rightarrow )}\)

Por la Descomposición de Cholesky Teorema C.7, tenemos que \(\Sigma=R^{\top}R\) y por Definición B.3 podemos expresar a \(\boldsymbol{Y}\) como \(\boldsymbol{Y}=R\boldsymbol{Z}\) con  \(\boldsymbol{Z}\sim N_n(\boldsymbol{0},I_n)\). Ahora, \[ \boldsymbol{Y}^{\top}A\boldsymbol{Y} =\boldsymbol{Z}^{\top}R^{\top}AR\boldsymbol{Z} \sim \chi^2(r). \] \(R^{\top}AR\) y por el Teorema E.4 sabemos que tambiéen es idempotente y de rango \(r\). Como \(R^{\top}AR\) es entonces una matriz de proyección entonces su rango es igual a su traza, por lo que \[ r=\operatorname{rango}\left(R^{\top}AR\right)=\operatorname{tr}\left(R^{\top}AR\right)=\operatorname{tr}\left(ARR^{\top}\right) =\operatorname{tr}(A\Sigma). \] Usando la Proposición C.2 tenemos que \(R^{\top}AR\) y \(ARR^{\top}=A\Sigma\) tienen los mismos eigenvalores (salvo posibles multiplicidades). Esto es, los eigenvalores de \(A\Sigma\) son \(r\)   1’s y \(n-r\)   0’s.

Corolario E.1 Sea \(Y\sim N_n(\boldsymbol{0}, \Sigma)\) y sea \(A\) una matriz simétrica. Entonces \[ \boldsymbol{Y}^{\top}A\boldsymbol{Y}\sim \chi^2(r) \] ssi \(A\Sigma\) es idempotente y tiene rango r.

Teorema E.6 Sea \(Y\sim N_n(\boldsymbol{\mu}, \Sigma)\), entonces \[ \left(\boldsymbol{Y}-\boldsymbol{\mu}\right)^{\top}\Sigma^{-1}\left(\boldsymbol{Y}-\boldsymbol{\mu}\right)\sim \chi^2(n). \]

Este teorema generaliza el teorema Teorema D.2 ya que no requiere que las variables aleatorias sean independientes.

Gracias a la Proposición C.15 tenemos que existe \(\Sigma^{1/2}\) tal que \[ \boldsymbol{Y}=\Sigma^{1/2}\boldsymbol{Z}+\boldsymbol{\mu}\qquad \ \ \Leftrightarrow \qquad \ \ \boldsymbol{Y}-\boldsymbol{\mu}=\Sigma^{1/2}\boldsymbol{Z} \] con \(\boldsymbol{Z}\sim N_n(\boldsymbol{0},I_n)\). Entonces \[ \begin{aligned} \left(\boldsymbol{Y}-\boldsymbol{\mu}\right)^{\top}\Sigma^{-1}\left(\boldsymbol{Y}-\boldsymbol{\mu}\right)&=\left(\Sigma^{1/2}\boldsymbol{Z}\right)^{\top}\Sigma^{-1}\left(\Sigma^{1/2}\boldsymbol{Z}\right)\\ &=\boldsymbol{Z}^{\top}\Sigma^{1/2}\Sigma^{-1}\Sigma^{1/2}\boldsymbol{Z}\\ &=\boldsymbol{Z}^{\top}\boldsymbol{Z}=\sum_{i=1}^nZ_i^2. \end{aligned} \] Como \(Z_i\) son independientes y cada una tiene distribución Normal estándar, entonces \(\sum_{i=1}^nZ_i\sim\chi^2(n)\).

Teorema E.7 Sea \(Y\sim N_n(\boldsymbol{\mu}, \Sigma)\), entonces \[ \boldsymbol{Y}^{\top}A\boldsymbol{Y}\sim \chi^2(r,\gamma), \] donde \(r=\operatorname{rango}(A)\)   y  \(\gamma=\boldsymbol{\mu}^{\top}A\boldsymbol{\mu}/2\), ssi \(A\Sigma\) es idempotente.

\(\Leftarrow )\)

Suponemos que \(A\Sigma\) es idempotente.

\[ m_{\boldsymbol{Y}^{\top} A\boldsymbol{Y}}(s) =\frac{1}{(2 \pi)^{n/2}|\Sigma|^{1/2}} \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} \exp \left[s \boldsymbol{Y}^{\top}A \boldsymbol{Y}-\frac{1}{2}(\boldsymbol{Y}-\boldsymbol{\mu})^{\top} \Sigma^{-1}(\boldsymbol{Y}-\boldsymbol{\mu})\right] dY_1 \cdots dY_n. \] Arreglando los exponentes tenemos \[ m_{\boldsymbol{Y}^{\top} A\boldsymbol{Y}}(s) =\frac{\exp\left(-\frac{1}{2}\boldsymbol{\mu}^{\top}\Sigma^{-1}\boldsymbol{\mu}\right)}{(2 \pi)^{n/2}|\Sigma|^{1/2}} \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} \exp \left[-\frac{1}{2} \boldsymbol{Y}^{\top}(I_n-2sA \Sigma) \Sigma^{-1} \boldsymbol{Y}+\mu^{\top} \Sigma^{-1} \boldsymbol{Y}\right] dY_1 \ldots dY_n. \] Usando la Proposición E.3  con \(\boldsymbol{g}^{\top}=\boldsymbol{\mu}^{\top}\Sigma^{-1}\)  y  \(W=[(I_n-2sA\Sigma)\Sigma^{-1}]^{-1}\) tenemos \[\begin{align} m_{\boldsymbol{Y}^{\top} A\boldsymbol{Y}}(s) & =\frac{\exp\left(-\frac{1}{2}\boldsymbol{\mu}^{\top}\Sigma^{-1}\boldsymbol{\mu}\right)}{(2 \pi)^{n/2}\left|\Sigma\right|^{1/2}} (2 \pi)^{n/2}\left|[(I_n-2sA\Sigma)\Sigma^{-1}]^{-1}\right|^{1/2}\exp\left(\frac{1}{2} \boldsymbol{\mu}^{\top}\Sigma^{-1}[(I_n-2sA\Sigma)\Sigma^{-1}]^{-1}(\boldsymbol{\mu}^{\top}\Sigma^{-1})^{\top}\right)\\[10pt] & = \exp\left(-\frac{1}{2}\boldsymbol{\mu}^{\top}\Sigma^{-1}\boldsymbol{\mu}\right)\left|\Sigma\right|^{-1/2} \left|\Sigma(I_n-2sA\Sigma)^{-1}\right|^{1/2} \exp\left(\frac{1}{2} \boldsymbol{\mu}^{\top}\Sigma^{-1}\Sigma(I_n-2sA\Sigma)^{-1}\Sigma^{-1}\boldsymbol{\mu}\right)\\ & = \left|I_n-2sA\Sigma\right|^{-1/2} \exp\left(-\frac{1}{2} \boldsymbol{\mu}^{\top}\left[I_n-(I_n-2sA\Sigma)^{-1}\right]\Sigma^{-1}\boldsymbol{\mu}\right) \qquad \qquad \text{( E.6.1 )} \\ & = \left(\prod_{i=1}^n\left(1-2s\lambda_i\right)^{-1/2}\right) \exp \left\{-\frac{1}{2} \boldsymbol{\mu}^{\top}\left[-\sum_{k=1}^{\infty}(2 s)^k(A\Sigma)^k\right] \Sigma^{-1} \boldsymbol{\mu}\right\}, \end{align}\] usando Proposición C.11 y Teorema C.5 y donde  \(\lambda_i\) son los eigenvalores de \(A\Sigma\). Ahora si \(A\Sigma\) es idempotente y con rango \(k\), tenemos \(r\) eigenvalores iguales a 1 y los restantes son 0. Además \((A\Sigma)^k=A\Sigma \quad \forall k\in \mathbb{N}\). Entonces \[ \begin{aligned} m_{\boldsymbol{Y}^{\top} A\boldsymbol{Y}}(s) & =\left(\prod_{i=1}^r\left(1-2s\right)^{-1/2}\right) \exp \left\{-\frac{1}{2} \boldsymbol{\mu}^{\top}\left[-\sum_{k=1}^{\infty}(2 s)^k\right]A\Sigma \Sigma^{-1} \boldsymbol{\mu}\right\}\\ & = \left(1-2s\right)^{-r/2} \exp \left\{-\frac{1}{2} \boldsymbol{\mu}^{\top}\left[1-(1-2 s)^{-1}\right]A\boldsymbol{\mu}\right\}\\ & = \left(1-2s\right)^{-r/2} \exp \left\{-\frac{1}{2} \boldsymbol{\mu}^{\top}A\boldsymbol{\mu}\left[1-(1-2 s)^{-1}\right]\right\} \end{aligned} \] que corresponde a la FGM de una v.a. \(\chi^2(r,\ \ \boldsymbol{\mu}^{\top}A\boldsymbol{\mu}/2 )\) (ver Proposición D.2).

\(\Rightarrow )\)

Ahora suponemos que \(\boldsymbol{Y}^{\top}A\boldsymbol{Y}\sim \chi^2(r,\ \boldsymbol{\mu}^{\top}A\boldsymbol{\mu}/2 )\). Para mostrar que \(A\Sigma\) es idempotente y de rango r, consideramos la FGM y ( E.6.1 ), que deben ser iguales para cualquier \(\boldsymbol{\mu}\), pero particularmente para \(\boldsymbol{\mu}=\boldsymbol{0}\). Entonces \[ (1-2 s)^{-\frac{r}{2}}=|I_n-2s A\Sigma|^{-\frac{1}{2}} \] ssi \[ (1-u)^r=|I_n-uA\Sigma|, \] Por otro lado, si \(\lambda_1,\ldots, \lambda_n\) son los eigenvalores de \(A\Sigma\) entonces, usando Proposición C.11, \[ (1-u)^r=\prod_{i=1}^n(1-u\lambda_i), \] de donde vemos que \(u\) no debe tener potencias mayores a \(r\) y que los valores de \(\lambda_i\) que no son cero, deben ser 1.

Corolario E.2  

  1. Si \(Y \sim N_n(\boldsymbol{0}, I_n)\) entonces \(\boldsymbol{Y}^{\top}A\boldsymbol{Y}\sim \chi^2(r)\) ssi \(A\) es idempotente y de rango \(r\).
  2. Si \(Y \sim N_n(\boldsymbol{0}, \Sigma)\) entonces \(\boldsymbol{Y}^{\top}A\boldsymbol{Y}\sim \chi^2(r)\) ssi \(A\Sigma\) es idempotente y de rango \(r\).
  3. Si \(Y \sim N_n(\boldsymbol{\mu}, \sigma^2I_n)\) entonces \(\boldsymbol{Y}^{\top}\boldsymbol{Y}/\sigma^2 \sim \chi^2(n, \ \boldsymbol{\mu}^{\top}\boldsymbol{\mu}/(2\sigma^2))\).
  4. Si \(Y \sim N_n(\boldsymbol{\mu}, I_n)\) entonces \(\boldsymbol{Y}^{\top}A\boldsymbol{Y}\sim \chi^2(r,\ \boldsymbol{\mu}^{\top}A\boldsymbol{\mu}/2)\) ssi \(A\) es idempotente y de rango \(r\).

Proposición E.5 Si \(\boldsymbol{Y} \sim N_n(\boldsymbol{\mu},\Sigma)\) entonces \(\operatorname{Cov}(\boldsymbol{Y}, \boldsymbol{Y}^{\top}A\boldsymbol{Y})=2\Sigma A \boldsymbol{\mu}\).

Tarea

Teorema E.8 (Indepndencia forma cuadrática y lineal) Si \(\boldsymbol{Y} \sim N_n(\boldsymbol{\mu},\Sigma)\) entonces \(\boldsymbol{Y}^{\top}A\boldsymbol{Y}\) y \(B\boldsymbol{Y}\) son independientes ssi \(B\Sigma A=0\).

\(\Leftarrow )\)

Sin pérdida de generalidad, asumimos que \(A\) es simétrica. Entonces por la Proposición C.10, \(A=LL^{\top}\) para alguna \(L\) con rango completo de columna. Entonces si \(B\Sigma A=0\), \(B\Sigma LL^{\top}=0\) y como \(LL^{\top}\) tiene rango completo (\(r\)), \((LL^{\top})^{-1}\) existe, por lo que \(B\Sigma LL^{\top}=0 \Rightarrow B\Sigma LL^{\top}L(LL^{\top})^{-1}=0\) que equivale a \(B\Sigma L=0\). Por otro lado, \(\operatorname{Cov}(B\boldsymbol{Y}, L^{\top}\boldsymbol{Y})=B\Sigma L\) y como \[ \left[\begin{array}{l} B \\ L^{\top} \end{array}\right]\boldsymbol{Y} \] es Normal multivariada, entonces \(B\boldsymbol{Y}\) y \(L^{\top}\boldsymbol{Y}\) son independientes. Esto, a su vez, implica que \(B\boldsymbol{Y}\) y \((L^{\top}\boldsymbol{Y})^{\top}L^{\top}\boldsymbol{Y}=\boldsymbol{Y}^{\top}LL^{\top}\boldsymbol{Y}=\boldsymbol{Y}^{\top}A\boldsymbol{Y}\) son independientes.

\(\Rightarrow )\)

A partir de la Proposición E.5, tenemos \[ \operatorname{Cov}(BY, Y^{\top}\Sigma Y)=2B\Sigma A\boldsymbol{\mu} \] y si \(\boldsymbol{Y}^{\top}A\boldsymbol{Y}\) y \(B\boldsymbol{Y}\) son independientes, entonces \(2B\Sigma A\boldsymbol{\mu}=0\), que es cierta para toda \(\boldsymbol{\mu}\), por lo que \(B\Sigma A=0\).

Teorema E.9 (Independencia de formas cuadráticas) Sea \(\boldsymbol{Y} \sim N_n(\boldsymbol{\mu}, \Sigma)\). Las dos forma cuadráticas \(\boldsymbol{Y}^{\top} A \boldsymbol{Y}\) y \(\boldsymbol{Y}^{\top} B\boldsymbol{Y}\) son independientes ssi \[ A \Sigma B=0,\qquad (\text{que equivale a }\ B\, \Sigma A= 0). \]

Ejemplo:

Let \(\boldsymbol{Y} \sim N_n(\boldsymbol{\mu}, I_n)\) y supongamos que \(T\) es una matriz, \(n \times n\), ortogonal que se particiona como \(T=\left[\begin{array}{c} T_1^{\top} \\ T_2^{\top} \end{array}\right],\) donde \(T_i\) es matriz \(n \times n_i\) , \(i=1,2\), tal que \(n_1+n_2=n\). Es fácil verificar que \[ T_1 T_1^{\top}=I_{n_1},\ \ T_2 T_2^{\top}=I_{n_2},\ \ T_1 T_2^{\top}=0, \ \ T_2 T_1^{\top}=0,\ \ \ \text{y}\ \ \ T^{\top} T=I_n. \] Además, \(T_i^{\top} T_i\) es idempotente y con \(\operatorname{rango}(T_i)= n_i, i=1,2\).

Por el Teorema E.7\(\boldsymbol{Y}^{\top} T_i^{\top} T_i \boldsymbol{Y} \sim \chi^2\left(n_i, \boldsymbol{\mu}^{\top} T_i^{\top} T_i \boldsymbol{\mu}\right),\ i=1,2\).

Por la ?prp-cuad_cuad_indep,  estas dos forma cuadráticas tienen distribuciones independientes.

Para los siguientes resulatados, en analogía a un subespacio y su complemento, consideramos la descomposición del espacio en subespacios \(\mathcal{V}_1, \mathcal{V}_2, \ldots, \mathcal{V}_k\). La suma \(\mathcal{V}_1+\) \(\mathcal{V}_2+\cdots+\mathcal{V}_k\) se denomina como la suma directa si cualquier vector en \(\mathcal{V}_1+\mathcal{V}_2+\cdots+\mathcal{V}_k\) se puede expresar en forma única como \(\boldsymbol{x}_1+\boldsymbol{x}_2+\cdots+\boldsymbol{x}_k\) con \(\boldsymbol{x}_i \in \mathcal{V}_i\) para cada \(i=1,2, \ldots, k\). En esta caso escribimos \(\mathcal{V}_1 \oplus \mathcal{V}_2 \oplus \cdots \oplus \mathcal{V}_k\).

Teorema E.10 (Fisher-Cochran 1) Si \(\boldsymbol{Y} \sim N_n(\boldsymbol{0}, I_n)\) y \(A_i \ (i=1, \ldots, k)\) son matrices simétricas e idempotentes con \(\operatorname{rango}\left(A_i\right)=n_i\) y \(\sum_{i=1}^k n_i=n\) entonces las siguientes afirmaciones son equivalentes:

  1. \(A_i A_j=0 \quad(i \neq j)\).
  2. Las formas cuadráticas \(\{\boldsymbol{Y}^{\top} A_i \boldsymbol{Y} \}_{i=1}^k\) son v.a.’s independientes con distribución \(\chi^2(n_i)\).

\(\text{a. } \Rightarrow \text{b. })\)

Las matrices \(A_i(i=1, \ldots, k)\) son de proyección y la condición \(A_i A_j=0 \quad(i \neq j)\) impica que si \(\mathcal{V}_i\) es imagen de \(A_i\) entonces \(\mathcal{V}_i\) y \(\mathcal{V}_j\) son subespacios ortogonales y como \(\sum_{i=1}^k n_i=n\), entonces \(\mathbb{R}^n\) es la suma directa \(\mathbb{R}^n=A_1 \oplus A_2 \oplus \ldots \oplus A_k\).

La idea básica de la prueba es considerar la base ortogonal \(\left\{\boldsymbol{v}_1, \boldsymbol{v}_2, \ldots, \boldsymbol{v}_n\right\}\) adaptada a esta descomposición de \(\mathbb{R}^n\), esto es, si \(\boldsymbol{v}_s \in \mathcal{V}_j\) entonces \(\boldsymbol{v}_{s+1} \in \mathcal{V}_j\) o \(\boldsymbol{v}_{s+1} \in \mathcal{V}_{j+1}\).

Como \(A_i\) es de proyección, entonces si \(\boldsymbol{v} \in \mathcal{V}_i\)\(A_i \boldsymbol{v}=\boldsymbol{v}\). En este caso, \(\boldsymbol{v}^{\top} A_i \boldsymbol{v}=\boldsymbol{v}^{\top} \boldsymbol{v}=\|\boldsymbol{v}\|^2\).

Cualquier vector \(\boldsymbol{Y}\in \mathbb{R}^n\) se puede descomponer en términos de la base ortogonal como \(\boldsymbol{Y}^{\top} \boldsymbol{v}_1+\boldsymbol{Y}^{\top} \boldsymbol{v}_2+\ldots+\boldsymbol{Y}^{\top} \boldsymbol{v}_n\). Como la proyección de \(\boldsymbol{Y}\) en \(\mathcal{V}_i\), corresponde a \(A_i \boldsymbol{y}\), tenemos que \(\boldsymbol{Y}=\sum_{i=1}^k A_i \boldsymbol{Y}\)  y entonces tenemos la descomposición matricial \[ I_n=A_1+A_2+\ldots+A_k. \] Así, \[ \|\boldsymbol{Y}\|^2=\boldsymbol{Y}^{\top} I_n \boldsymbol{Y}=\boldsymbol{Y}^{\top}\left(A_1+A_2+\ldots+A_k\right) \boldsymbol{Y}=\boldsymbol{Y}^{\top} A_1 \boldsymbol{Y}+\boldsymbol{Y}^{\top} A_2 \boldsymbol{Y}+\ldots+\boldsymbol{Y}^{\top} A_k \boldsymbol{Y}. \]

Ahora examinemos la distribución de cada forma cuadrática \(\boldsymbol{Y}^{\top} A_i \boldsymbol{Y}\). Usando el hecho que \(A_i \boldsymbol{Y}=\sum_{\boldsymbol{v}_s \in \mathcal{V}_i}\left(\boldsymbol{Y}^{\top} \boldsymbol{v}_s\right) \boldsymbol{v}_s\) tenemos \(\boldsymbol{Y}^{\top} A_i \boldsymbol{Y}=\sum_{\boldsymbol{v}_s \in \mathcal{V}_i}\left(\boldsymbol{Y}^{\top} \boldsymbol{v}_s\right)^2\).

Ahora, \(\boldsymbol{Y} \sim N_n(\boldsymbol{0}, I_n)\) entonces \(\boldsymbol{Y}^{\top} \boldsymbol{v}_s \sim N_1(0,1)\), y para \(s \neq m,\ \boldsymbol{Y}^{\top} \boldsymbol{v}_s\) and \(\boldsymbol{Y}^{\top} \boldsymbol{v}_m\) son independientes. Por lo tanto, \[\left(\boldsymbol{Y}^{\top} \boldsymbol{v}_s\right)^2 \sim \chi^2(1) \qquad \text{y} \qquad \boldsymbol{Y}^{\top} A_i \boldsymbol{Y}=\sum_{\boldsymbol{v}_s \in \mathcal{V}_i}\left(\boldsymbol{Y}^{\top} \boldsymbol{v}_s\right)^2 \sim \chi^2(n_i). \]

\(\text{b. } \Rightarrow \text{a. })\)

Ahora tenemos que probar que los subespacios \(\mathcal{V}_i\ (i=1,2, \ldots, k)\) son ortogonales. Sean \(i\ne j, \ i, j \in \{1,2,\ldots,k\}\), queremos probar que \(\mathcal{V}_i\) and \(\mathcal{V}_j\) son ortogonales. Consideramos \(\boldsymbol{Y} \in V_j\).

Por la descomposición ortogonal de un vector, \(\mathbb{R}^n=V_i \oplus V_i^{\perp}\) y \(\boldsymbol{Y}=\boldsymbol{Y}_i+\boldsymbol{Y}_i^{\perp}\). Tenemos que probar que \(Y_i=0\).

Ahora, \[ \boldsymbol{Y}^{\top} A_j \boldsymbol{Y}=\boldsymbol{Y}^{\top} \boldsymbol{Y}=\|\boldsymbol{Y}\|^2=\left\|\boldsymbol{Y}_i\right\|^2+\left\|\boldsymbol{Y}_i^{\perp}\right\|^2=\boldsymbol{Y}_i^{\top} A_i \boldsymbol{Y}_i+\left\|\boldsymbol{Y}_i^{\perp}\right\|^2 \]

Consideramos la covarianza de las dos formas cuadráticas que sabemos independientes: \[ 0=\operatorname{Cov}\left(\boldsymbol{Y}^{\top} A_j \boldsymbol{Y}, \ \boldsymbol{Y}_i^{\top} A_i \boldsymbol{Y}_i\right) = \operatorname{Cov}\left(\boldsymbol{Y}_i^{\top} A_i \boldsymbol{Y}_i,\ \boldsymbol{Y}_i^{\top} A_i \boldsymbol{Y}_i\right) +\operatorname{Cov}\left(\left\|\boldsymbol{Y}_i^{\perp}\right\|^2, \ \boldsymbol{Y}_i^{\top} A_i \boldsymbol{Y}_i\right) \] Pero \(\boldsymbol{Y}_i\) y \(\boldsymbol{Y}_i^{\perp}\) son vectores aleatorios ortogonales. Entonces son independientes y también sus formas cuadráticas \(\left\|\boldsymbol{Y}_i^{\perp}\right\|^2\) y \(\boldsymbol{Y}_i^T A_i \boldsymbol{Y}_i\) son independientes. Por lo tanto, \[ \operatorname{Cov}\left(\boldsymbol{Y}^{\top} A_j \boldsymbol{Y}, \ \boldsymbol{Y}_i^{\top} A_i \boldsymbol{Y}_i\right) =\operatorname{Cov}\left(\boldsymbol{Y}_i^{\top} A_i \boldsymbol{Y}_i,\ \boldsymbol{Y}_i^{\top} A_i \boldsymbol{Y}_i\right) =\operatorname{Var}\left(\boldsymbol{Y}_i^{\top} A_i \boldsymbol{Y}_i\right)=\operatorname{Var}\left(\left\|\boldsymbol{Y}_i\right\|^2\right)=0 \]

Con esto podemos afirmar que \(\boldsymbol{Y}_i=0\) lo que implica que \(\mathcal{V}_i\) y \(\mathcal{V}_j\) son ortogonales.

Proposición E.6 (Fisher-Cochran 2) Si \(\boldsymbol{Y} \sim N_n(\boldsymbol{\mu}, I_n)\) y \(A_i \ (i=1, \ldots, k)\) con \(\operatorname{rango}\left(A_i\right)=n_i\) y \(\sum_{i=1}^k n_i=n\) entonces

  1. Las proyecciones ortogonales de \(Y\) en \(\mathcal{C}(A_i)\),  \(i=1,\ldots,k\), \(\{A_i\boldsymbol{Y}\}\), son vectores aleatorios independientes y \(A_i\boldsymbol{Y} \sim N_{n_i}(A_i\boldsymbol{\mu},\ I_{n_i}\ )\)

  2. Las formas cuadráticas \(\{\boldsymbol{Y}^{\top} A_i \boldsymbol{Y} \}_{i=1}^k\) son v.a.’s independientes con distribución \(\chi^2(n_i,\boldsymbol{\mu}^{\top}A_i\boldsymbol{\mu})\).


Bibliografía:

  • Christensen, R. (2011). Plane answers to complex questions: The Theory of Linear Models. 4th Ed. New York: Springer.
  • Searle, S.R. (1997). Linear models. John Wiley & Sons.
  • Chaves, L.M., & de Souza, D.J. (2019). An Elementary Proof o the Fisher-Cochran Theorem using a Geometrical Approach. Brazilian Journal of Biometrics, 37(3), 372-377.