En matemáticas, el cálculo matricial es una notación especializada para realizar cálculo multivariable, especialmente sobre espacios de matrices. Recoge las distintas derivadas parciales de una única función con respecto a muchas variables, y/o de una función multivariable con respecto a una única variable, en vectores y matrices que pueden tratarse como entidades únicas. Esto simplifica enormemente operaciones como la búsqueda del máximo o el mínimo de una función multivariante y la resolución de sistemas de ecuaciones diferenciales. La notación empleada aquí se utiliza habitualmente en estadística e ingeniería, mientras que la notación de índice tensorial es la preferida en física.
Dos convenciones de notación opuestas dividen el campo del cálculo matricial en dos grupos distintos. Los dos grupos pueden distinguirse por si escriben la derivada de un escalar con respecto a un vector como un vector columna o como un vector fila. Ambas convenciones son posibles incluso cuando se hace la suposición común de que los vectores deben tratarse como vectores columna cuando se combinan con matrices (en lugar de vectores fila). Una única convención puede ser algo estándar en un único campo que utilice habitualmente el cálculo matricial (por ejemplo, la econometría, la estadística, la teoría de la estimación y el aprendizaje automático). Sin embargo, incluso dentro de un mismo campo, puede haber autores que utilicen convenciones opuestas. Los autores de ambos grupos suelen escribir como si sus convenciones específicas fueran estándar. La combinación de resultados de distintos autores sin comprobar cuidadosamente que se han utilizado notaciones compatibles puede dar lugar a graves errores. Las definiciones de estas dos convenciones y las comparaciones entre ellas se recogen en la sección de convenciones de maquetación.
El cálculo matricial se refiere a una serie de notaciones diferentes que utilizan matrices y vectores para recoger la derivada de cada componente de la variable dependiente con respecto a cada componente de la variable independiente. En general, la variable independiente puede ser un escalar, un vector o una matriz, mientras que la variable dependiente también puede ser cualquiera de ellos. Cada situación diferente dará lugar a un conjunto diferente de reglas, o a un cálculo distinto, utilizando el sentido más amplio del término. La notación matricial es una forma cómoda de recoger las numerosas derivadas de forma organizada.
Como primer ejemplo, consideremos el gradiente del cálculo vectorial. Para una función escalar de tres variables independientes, , la gradiente es dada por la ecuación vectorial
donde representa un vector unitario en la dirección para . Este tipo de derivada generalizada puede verse como la derivada de un escalar, f, respecto a un vector , y su resultado puede recogerse fácilmente en forma vectorial.
Ejemplos más complicados incluyen la derivada de una función escalar con respecto a una matriz, conocida como matriz gradiente, que recoge la derivada con respecto a cada elemento de la matriz en la posición correspondiente de la matriz resultante. En ese caso, el escalar debe ser función de cada una de las variables independientes de la matriz. Como otro ejemplo, si tenemos un n-vector de variables dependientes, o funciones, de m variables independientes podríamos considerar la derivada del vector dependiente con respecto al vector independiente. El resultado podría recogerse en una matriz m×n formada por todas las combinaciones de derivadas posibles.
Hay un total de nueve posibilidades utilizando escalares, vectores y matrices. Observe que a medida que consideramos números más altos de componentes en cada una de las variables independientes y dependientes podemos quedarnos con un número muy grande de posibilidades. Los seis tipos de derivadas que pueden organizarse mejor en forma matricial se recogen en la siguiente tabla.[1]
Aquí hemos utilizado el término "matriz" en su sentido más general, reconociendo que los vectores y los escalares son simplemente matrices con una columna y una fila, respectivamente. Además, hemos utilizado letras negritas para indicar vectores y mayúsculas para matrices. Esta notación se utiliza en todo el texto.
Observe que también podríamos hablar de la derivada de un vector respecto a una matriz, o de cualquiera de las otras celdas sin rellenar de nuestra tabla. Sin embargo, estas derivadas se organizan de forma más natural en un tensor de rango superior a 2, por lo que no encajan perfectamente en una matriz. En las tres secciones siguientes definiremos cada una de estas derivadas y las relacionaremos con otras ramas de las matemáticas. Consulte la sección de convenciones de disposición para ver una tabla más detallada.
La derivada matricial es una notación conveniente para llevar la cuenta de las derivadas parciales para hacer cálculos. La derivada de Fréchet es la forma estándar en el entorno del análisis funcional para tomar derivadas con respecto a vectores. En el caso de que una función matricial de una matriz sea diferenciable en Fréchet, las dos derivadas coincidirán hasta la traslación de notaciones. Como ocurre en general con las derivadas parciales, algunas fórmulas pueden extenderse bajo condiciones analíticas más débiles que la existencia de la derivada como cartografía lineal aproximante.
El cálculo matricial se utiliza para derivar estimadores estocásticos óptimos, que a menudo implican el uso de multiplicadores de Lagrange. Esto incluye la derivación de:
Las derivadas vectoriales y matriciales presentadas en las secciones siguientes aprovechan al máximo la notación matricial, utilizando una única variable para representar un gran número de variables. En lo que sigue distinguiremos escalares, vectores y matrices por su tipo de letra. M(n,m) es el espacio de matrices realesn×m con n filas y m columnas. Dichas matrices se denotarán utilizando letras mayúsculas en negrita: A, X, Y, etc. Un elemento de M(n,1), es decir, un vector columna, se denota con una letra minúscula en negrita: a, x, y, etc. Un elemento de M(1,1) es un escalar, denotado con letra minúscula cursiva: a, t, x, etc. XT es la transposición de la matriz, tr(X) es la traza y det(X) o |X| es el determinante. Se supone que todas las funciones son de clase de diferenciabilidadC1, a menos que se indique lo contrario. Generalmente se utilizarán letras de la primera mitad del alfabeto (a, b, c, ...) para denotar constantes, y de la segunda mitad (t, x, y, ...) para denotar variables.
NOTA: Como se ha mencionado anteriormente, existen notaciones que compiten entre sí para presentar sistemas de derivadas parciales en vectores y matrices, y no parece que esté surgiendo todavía ningún estándar. Las dos secciones introductorias siguientes utilizan la convención de disposición del numerador simplemente por conveniencia, para evitar complicar demasiado la discusión. En la sección siguiente se tratan las convenciones de disposición con más detalle. Es importante tener en cuenta lo siguiente:
A pesar del uso de los términos "disposición del numerador" y "disposición del denominador", en realidad hay más de dos opciones notacionales posibles. La razón es que la elección de numerador frente a denominador (o, en algunas situaciones, numerador frente a mixto) puede hacerse independientemente para las derivadas escalar por vector, vector por escalar, vector por vector y escalar por matriz, y varios autores mezclan y combinan sus elecciones de disposición de diversas maneras.
La elección de la disposición del numerador en las secciones introductorias no implica que ésta sea la opción "correcta" o "superior". Los distintos tipos de disposición tienen ventajas e inconvenientes. La combinación descuidada de fórmulas escritas en diferentes disposiciones puede dar lugar a errores graves, y la conversión de una disposición a otra requiere cuidado para evitar errores. Por ello, cuando se trabaja con fórmulas existentes, lo mejor es identificar el diseño utilizado y mantener la coherencia con él, en lugar de intentar utilizar el mismo diseño en todas las situaciones.
La notación de índice tensorial con su convenio de suma de Einstein es muy similar al cálculo matricial, excepto en que sólo se escribe un componente cada vez. Tiene la ventaja de que se pueden manipular fácilmente tensores de rango arbitrariamente alto, mientras que los tensores de rango superior a dos son bastante difíciles de manejar con la notación matricial. Todo el trabajo aquí puede hacerse en esta notación sin usar la notación matricial de una sola variable. Sin embargo, muchos problemas en la teoría de la estimación y otras áreas de la matemática aplicada darían lugar a demasiados índices como para poder seguirlos adecuadamente, lo que apunta a favor del cálculo matricial en esas áreas. Además, la notación de Einstein puede ser muy útil para demostrar las identidades presentadas aquí (véase la sección sobre diferenciación) como alternativa a la notación típica de elementos, que puede resultar engorrosa cuando se llevan las sumas explícitas. Nótese que una matriz puede considerarse un tensor de rango dos.
Dado que los vectores son matrices con una sola columna, las derivadas matriciales más sencillas son derivadas vectoriales.
Las notaciones desarrolladas aquí pueden acomodar las operaciones usuales del cálculo vectorial identificando el espacio M(n,1) de n-vectores con el espacio euclídeoRn, y el escalar M(1,1) se identifica con R. El concepto correspondiente del cálculo vectorial se indica al final de cada subsección.
NOTA: La discusión en esta sección asume la convención de disposición del numerador con fines pedagógicos. Algunos autores utilizan convenciones diferentes. En la sección sobre convenciones de disposición se trata esta cuestión con más detalle. Las identidades que se dan más abajo se presentan en formas que pueden usarse en conjunción con todas las convenciones de disposición comunes.
La derivada de un escalary por un vector , es escrito (en notación de disposición del numerador) como
En cálculo vectorial, el gradiente de un campo escalar f en el espacio Rn (cuyas coordenadas independientes son las componentes de x) es el transpuesto de la derivada de un escalar por un vector.
La derivada direccional de una función escalar f(x) del vector espacial x en la dirección del vector unitario u (representado en este caso como un vector columna) se define utilizando el gradiente de la siguiente manera.
Utilizando la notación que acabamos de definir para la derivada de un escalar con respecto a un vector podemos reescribir la derivada direccional como Este tipo de notación será útil para demostrar reglas de producto y reglas en cadena que resultan similares a las que conocemos para la derivada escalar.
Cada uno de los dos casos anteriores puede considerarse como una aplicación de la derivada de un vector respecto de un vector, utilizando adecuadamente un vector de tamaño uno. De forma similar, encontraremos que las derivadas que implican matrices se reducirán a derivadas que implican vectores de forma correspondiente.
La derivada de una función vectorial (un vector cuyas componentes son funciones)con respecto a un vector de entrada, se escribe (en notación de disposición del numerador) como
Hay dos tipos de derivadas con matrices que se pueden organizar en una matriz del mismo tamaño. Se trata de la derivada de una matriz por un escalar y la derivada de un escalar por una matriz. Pueden ser útiles en problemas de minimización que se encuentran en muchas áreas de las matemáticas aplicadas y han adoptado los nombres de matriz tangente y matriz gradiente, respectivamente, después de sus análogos para los vectores.
Nota: La discusión en esta sección asume la convención de disposición del numerador con fines pedagógicos. Algunos autores utilizan convenciones diferentes. En la sección sobre convenciones de disposición se trata este tema con más detalle. Las identidades que se dan más abajo se presentan en formas que pueden usarse en conjunción con todas las convenciones de disposición comunes.
La derivada de una función escalar y de una matriz p×qX de variables independientes, con respecto a la matriz X, viene dada (en notación de disposición del numerador) por
Ejemplos importantes de funciones escalares de matrices son la traza de una matriz y el determinante.
En analogía con el cálculo vectorial, esta derivada suele escribirse de la siguiente manera.
También por analogía con el cálculo vectorial, la derivada direccional de un escalar f(X) de una matriz X en la dirección de la matriz Y viene dada por
Es la matriz gradiente, en particular, que encuentra muchos usos en los problemas de minimización en la teoría de la estimación, en particular en la derivación del algoritmo del filtro de Kalman, que es de gran importancia en el campo.
Los tres tipos de derivadas que no se han considerado son las de vectores por matrices, matrices por vectores y matrices por matrices. Estas derivadas no se consideran tan ampliamente y no existe una notación comúnmente aceptada.
En esta sección se discuten las similitudes y diferencias entre las convenciones notacionales que se utilizan en los distintos campos que aprovechan el cálculo matricial. Aunque en gran medida hay dos convenciones consistentes, algunos autores encuentran conveniente mezclar las dos convenciones en formas que se discuten a continuación. Después de esta sección, las ecuaciones se enumerarán en las dos formas que compiten por separado.
La cuestión fundamental es que la derivada de un vector con respecto a otro vector, es decir , a menudo se escribe de dos formas opuestas. Si el numerador y es de tamaño m y el denominador x de tamaño n, entonces el resultado puede disponerse como una matriz m×n o como una matriz n×m, es decir, los elementos de y dispuestos en columnas y los elementos de x dispuestos en filas, o viceversa. Esto nos lleva a las siguientes posibilidades:
Disposición del numerador, es decir, disposición en función de y y xT(es decir, contrariamente a x). A veces se denomina formulación jacobiana. Esto corresponde a la presentación m×n del ejemplo anterior, lo que significa que el número de fila de es igual al tamaño del numerador y el número de columna de es igual al tamaño de xT.
Disposición del denominador, es decir, disposición en función de yT y x (es decir, contrariamente a y). A veces se denomina formulación hessiana. Algunos autores denominan gradiente a esta disposición, a diferencia de la jacobiana (disposición del numerador), que es su transpuesta. (Sin embargo, gradiente significa más comúnmente la derivada , independientemente de la disposición). Esto corresponde a la disposición n×m del ejemplo anterior, lo que significa que el número de fila de es igual al tamaño de x (el denominador).
Una tercera posibilidad que se ve a veces es insistir en escribir la derivada como , (es decir, la derivada se toma con respecto a la transpuesta de x) y siguen la disposición del numerador. Esto permite afirmar que la matriz se dispone según numerador y denominador. En la práctica, esto produce los mismos resultados que la disposición del numerador.
Al tratar el gradiente y el caso contrario tenemos los mismos problemas. Para ser coherentes, deberíamos hacer una de las siguientes cosas:
Si elegimos la disposición del numerador para deberíamos trazar el gradiente como un vector fila, y como vector columna.
Si elegimos la disposición del denominador para deberíamos trazar el gradiente como un vector columna, y como vector fila.
En la tercera posibilidad anterior, escribimos y y utilizamos la disposición del numerador.
No todos los libros de texto y artículos de matemáticas son consistentes en este aspecto. Es decir, a veces se utilizan diferentes convenciones en diferentes contextos dentro del mismo libro o documento. Por ejemplo, algunos eligen la disposición del denominador para los gradientes (presentándolos como vectores columna), pero la disposición del numerador para la derivada vectorial
Del mismo modo, cuando se trata de derivadas escalares por matrices y derivadas matriz-por-escalar entonces la disposición coherente del numerador se dispone según Y y XT, mientras que la disposición coherente del denominador se dispone según YT y X. En la práctica, sin embargo, seguir una disposición del denominador para y disponiendo el resultado según YT, rara vez se ve porque da lugar a fórmulas malas que no se corresponden con las fórmulas escalares. Como resultado, a menudo se pueden encontrar las siguientes disposiciones:
Disposición consistente del numerador, que dispone en función de Y y según XT.
Disposición mixta, que establece según Y y según X.
Utilizar la notación con resultados iguales a la disposición coherente del numerador.
En las siguientes fórmulas manejamos las cinco combinaciones posibles y por separado. También manejamos casos de derivadas escalares por escalares que implican un vector o matriz intermedia. (Esto puede surgir, por ejemplo, si una curva paramétrica multidimensional se define en términos de una variable escalar, y luego se toma una derivada de una función escalar de la curva con respecto al escalar que parametriza la curva). Para cada una de las distintas combinaciones, damos resultados de disposición del numerador y del denominador, excepto en los casos anteriores en los que la disposición del denominador rara vez se produce. En los casos de matrices en los que tiene sentido, damos resultados de disposición del numerador y de disposición mixta. Como se ha indicado anteriormente, los casos en los que los denominadores de vectores y matrices se escriben en notación de transposición son equivalentes a la disposición del numerador con los denominadores escritos sin la transposición.
Tenga en cuenta que varios autores utilizan diferentes combinaciones de disposiciones del numerador y del denominador para diferentes tipos de derivadas, y no hay garantía de que un autor utilice sistemáticamente la disposición del numerador o del denominador para todos los tipos. Compare las fórmulas siguientes con las citadas en la fuente para determinar la disposición utilizada para ese tipo concreto de derivada, pero tenga cuidado de no asumir que las derivadas de otros tipos siguen necesariamente el mismo tipo de disposición.
Cuando se toman derivadas con un denominador agregado (vectorial o matricial) para encontrar un máximo o un mínimo del agregado, debe tenerse en cuenta que el uso de la disposición del numerador producirá resultados que se transponen con respecto al agregado. Por ejemplo, al intentar hallar la estimación de máxima verosimilitud de una distribución normal multivariante utilizando el cálculo matricial, si el dominio es un vector columna k×1, entonces el resultado utilizando la disposición del numerador tendrá la forma de un vector fila 1×k. Por lo tanto, o bien los resultados deben transponerse al final o bien debe utilizarse la disposición del denominador (o disposición mixta).
Resultado de diferenciar varios tipos de agregados con otros tipos de agregados
Los resultados de las operaciones se transpondrán cuando se cambie entre la notación de disposición del numerador y la notación de disposición del denominador.
Como se ha indicado anteriormente, en general, los resultados de las operaciones se transpondrán al cambiar entre la notación de disposición del numerador y la notación de disposición del denominador.
Para entender mejor todas las identidades que aparecen a continuación, hay que tener en cuenta las reglas más importantes: la regla de la cadena, la regla del producto y la regla de la suma. La regla de la suma se aplica universalmente, y la regla del producto se aplica en la mayoría de los casos siguientes, siempre que se mantenga el orden de los productos matriciales, ya que los productos matriciales no son conmutativos. La regla de la cadena se aplica en algunos de los casos, pero lamentablemente no se aplica en las derivadas matriz por escalar ni en las derivadas escalar por matriz (en este último caso, se trata sobre todo del operador de traza aplicado a matrices). En este último caso, la regla del producto tampoco se puede aplicar directamente, pero se puede hacer el equivalente con un poco más de trabajo utilizando las identidades diferenciales.
Las siguientes identidades adoptan las siguientes convenciones:
los escalares, a, b, c, d, y e son constantes respecto de, y los escalares, u, y v son funciones de una de x, x, o X;
los vectores a, b, c, d y e son constantes con respecto de, y los vectores u y v son funciones de x, x o X;
las matrices A, B, C, D y E son constantes con respecto de, y las matrices U y V son funciones de x, x o X.
Esto se presenta en primer lugar porque todas las operaciones que se aplican a la diferenciación vector-por-vector se aplican directamente a la diferenciación escalar-por-vector o escalar simplemente reduciendo el vector apropiado en el numerador o denominador a un escalar.
Supone una disposición coherente de la matriz; véase más abajo.
u = u(x)
Supone una disposición coherente de la matriz; véase más abajo.
U = U(x), v = v(x)
NOTA: Las fórmulas que implican las derivadas vector-por-vector y (cuyas salidas son matrices) suponen que las matrices se disponen de forma coherente con la disposición de los vectores, es decir, matriz de disposición-numerador cuando vector de disposición-numerador y viceversa; de lo contrario, transponen las derivadas vector-por-vector.
Obsérvese que no existen equivalentes exactos de la regla del producto escalar y de la regla de la cadena cuando se aplican a funciones de matrices con valores matriciales. Sin embargo, la regla del producto de este tipo sí se aplica a la forma diferencial (véase más adelante), y ésta es la forma de derivar muchas de las identidades que aparecen a continuación y que implican la función traza, combinada con el hecho de que la función traza permite la transposición y la permutación cíclica, es decir:
Por ejemplo, para computar
En ese sentido,
(disposición de numerador)
(disposición de denominador)
(Para el último paso, véase la sección Conversión de forma diferencial a derivada).
Ambas formas asumen la disposición de numerador para
es decir, la disposición mixta se utiliza si es que se usa la disposición de denominador X.
a y b no son funciones de X
a y b no son funciones de X
a, b y C no son funciones de X
a, b y C no son funciones de X
U = U(X), V = V(X)
a no es una función de X, U = U(X)
g(X) es cualquier polinomio con coeficientes escalares o cualquier función matricial definida por una serie polinómica infinita (por ejemplo eX, sin(X), cos(X), ln(X), entre otros, utilizando una serie de Taylor); g(x)es la función escalar equivalente, g′(x) es su derivada, y g′(X) es la función matricial correspondiente.
A no es una función de x, g(X) es cualquier polinomio con coeficientes escalares, o cualquier función de matriz definida por una serie polinómica infinita (e.g. eX, sin(X), cos(X), ln(X), entre otros); g(x) es una función escalar equivalente, g′(x) es su derivado y g′(X) es la función matricial correspondiente
Identidades: escalar-por-escalar, con matrices implicadas[4]
Condición
Expresión
Disposición coherente del numerador, es decir, por Y y XT
Disposición mixta, es decir, por Y y X
U = U(x)
U = U(x)
U = U(x)
U = U(x)
A no es una función de x, g(X) es cualquier polinomio con coeficientes escalares, o cualquier función matricial definida por una serie polinómica infinita (es decir, eX, sin(X), cos(X), ln(X), entre otras); g(x) es la función escalar equivalente, g′(x) es su derivado, y g′(X) es la función matricial correspondiente.
A menudo es más fácil trabajar en forma diferencial y luego volver a convertir a derivadas normales. Esto sólo funciona bien utilizando la disposición del numerador. En estas reglas, "a" es un escalar.
Identidades diferenciales: escalar que implican matrices[1][4]
En la última fila, es el delta de Kronecker y es el conjunto de operadores de proyección ortogonales que se proyectan sobre el k-ésimo vector propio de X.
Q es la matriz de vectores propios de , y son los valores propios. La función matricial se define en términos de la función escalar para matrices diagonalizables mediante
donde con .
Para convertir a la forma derivada normal, primero se convierte a una de las siguientes formas canónicas, y luego se utilizan estas identidades:
Conversión de la forma diferencial a la forma derivada[1]
Forma diferencial canónica
Forma derivada equivalente (disposición del numerador)
↑ abcAquí, se refiere al vector columna de los 0, de tamaño n, donde n es la longitud de x.
↑ abcdefghijklmnñopPetersen, Kaare Brandt; Pedersen, Michael Syskind. The Matrix Cookbook(en inglés). Archivado desde el original el 2 de marzo de 2010. Consultado el 5 de febrero de 2016. Este libro usa una disposición mixta, es decir, por Y en por X en
↑ abAquí, se refiere a la matriz de todos los 0, de la misma forma que X.
Kollo, Tõnu; von Rosen, Dietrich (2005). Advanced multivariate statistics with matrices(en inglés). Dordrecht: Springer. ISBN978-1-4020-3418-3.
Pan, Jianxin; Fang, Kaitai (2007). Growth curve models and statistical diagnostics. Beijing: Science Press. p. en. ISBN9780387950532.
Magnus, Jan; Neudecker, Heinz (2019). Matrix differential calculus with applications in statistics and econometrics(en inglés). New York: John Wiley. ISBN9781119541202.
Liu, Shuangzhe; Leiva, Victor; Zhuang, Dan; Ma, Tiefeng; Figueroa-Zúñiga, Jorge I. (2022). Matrix differential calculus with applications in the multivariate linear model and its diagnostics(en inglés)188. Journal of Multivariate Analysis. p. 104849. doi:10.1016/j.jmva.2021.104849.
Abadir, Karim M., 1964-, Magnus, Jan R. (2005). Matrix algebra(en inglés). Cambridge: Cambridge University Press. ISBN978-0-511-64796-3. OCLC569411497.
Lax, Peter D. (2007). «9. Calculus of Vector- and Matrix-Valued Functions». Linear algebra and its applications(en inglés) (2 edición). Hoboken, N.J.: Wiley-Interscience. ISBN978-0-471-75156-4.
Magnus, Jan R. (2010). «On the concept of matrix derivative». Journal of Multivariate Analysis(en inglés)101 (9): 2200-2206. doi:10.1016/j.jmva.2010.05.005.