Cálculo matricial

En matemáticas, el cálculo matricial es una notación especializada para realizar cálculo multivariable, especialmente sobre espacios de matrices. Recoge las distintas derivadas parciales de una única función con respecto a muchas variables, y/o de una función multivariable con respecto a una única variable, en vectores y matrices que pueden tratarse como entidades únicas. Esto simplifica enormemente operaciones como la búsqueda del máximo o el mínimo de una función multivariante y la resolución de sistemas de ecuaciones diferenciales. La notación empleada aquí se utiliza habitualmente en estadística e ingeniería, mientras que la notación de índice tensorial es la preferida en física.

Dos convenciones de notación opuestas dividen el campo del cálculo matricial en dos grupos distintos. Los dos grupos pueden distinguirse por si escriben la derivada de un escalar con respecto a un vector como un vector columna o como un vector fila. Ambas convenciones son posibles incluso cuando se hace la suposición común de que los vectores deben tratarse como vectores columna cuando se combinan con matrices (en lugar de vectores fila). Una única convención puede ser algo estándar en un único campo que utilice habitualmente el cálculo matricial (por ejemplo, la econometría, la estadística, la teoría de la estimación y el aprendizaje automático). Sin embargo, incluso dentro de un mismo campo, puede haber autores que utilicen convenciones opuestas. Los autores de ambos grupos suelen escribir como si sus convenciones específicas fueran estándar. La combinación de resultados de distintos autores sin comprobar cuidadosamente que se han utilizado notaciones compatibles puede dar lugar a graves errores. Las definiciones de estas dos convenciones y las comparaciones entre ellas se recogen en la sección de convenciones de maquetación.

Ámbito

El cálculo matricial se refiere a una serie de notaciones diferentes que utilizan matrices y vectores para recoger la derivada de cada componente de la variable dependiente con respecto a cada componente de la variable independiente. En general, la variable independiente puede ser un escalar, un vector o una matriz, mientras que la variable dependiente también puede ser cualquiera de ellos. Cada situación diferente dará lugar a un conjunto diferente de reglas, o a un cálculo distinto, utilizando el sentido más amplio del término. La notación matricial es una forma cómoda de recoger las numerosas derivadas de forma organizada.

Como primer ejemplo, consideremos el gradiente del cálculo vectorial. Para una función escalar de tres variables independientes, $f(x_{1},x_{2},x_{3})$ , la gradiente es dada por la ecuación vectorial

$\nabla f={\frac {\partial f}{\partial x_{1}}}{\hat {x}}_{1}+{\frac {\partial f}{\partial x_{2}}}{\hat {x}}_{2}+{\frac {\partial f}{\partial x_{3}}}{\hat {x}}_{3}$

donde ${\hat {x}}_{i}$ representa un vector unitario en la $x_{i}$ dirección para $1\leq i\leq 3$ . Este tipo de derivada generalizada puede verse como la derivada de un escalar, f, respecto a un vector $\mathbf {x}$ , y su resultado puede recogerse fácilmente en forma vectorial.

$\nabla f=\left({\frac {\partial f}{\partial \mathbf {x} }}\right)^{\mathsf {T}}={\begin{bmatrix}{\frac {\partial f}{\partial x_{1}}}&{\frac {\partial f}{\partial x_{2}}}&{\frac {\partial f}{\partial x_{3}}}\\\end{bmatrix}}^{\textsf {T}}.$

Ejemplos más complicados incluyen la derivada de una función escalar con respecto a una matriz, conocida como matriz gradiente, que recoge la derivada con respecto a cada elemento de la matriz en la posición correspondiente de la matriz resultante. En ese caso, el escalar debe ser función de cada una de las variables independientes de la matriz. Como otro ejemplo, si tenemos un n-vector de variables dependientes, o funciones, de m variables independientes podríamos considerar la derivada del vector dependiente con respecto al vector independiente. El resultado podría recogerse en una matriz m×n formada por todas las combinaciones de derivadas posibles.

Hay un total de nueve posibilidades utilizando escalares, vectores y matrices. Observe que a medida que consideramos números más altos de componentes en cada una de las variables independientes y dependientes podemos quedarnos con un número muy grande de posibilidades. Los seis tipos de derivadas que pueden organizarse mejor en forma matricial se recogen en la siguiente tabla.^[1]

Tipos de derivadas matriciales
Tipos	Escalar	Vector	Matriz
Escalar	${\frac {\partial y}{\partial x}}$	${\frac {\partial \mathbf {y} }{\partial x}}$	${\frac {\partial \mathbf {Y} }{\partial x}}$
Vector	${\frac {\partial y}{\partial \mathbf {x} }}$	rowspan="" style="background-color:none;color:black; text-align:center; vertical-align:middle;" \|
Matriz	rowspan="" style="background-color:none;color:black; text-align:center; vertical-align:middle;" \|

Aquí hemos utilizado el término "matriz" en su sentido más general, reconociendo que los vectores y los escalares son simplemente matrices con una columna y una fila, respectivamente. Además, hemos utilizado letras negritas para indicar vectores y mayúsculas para matrices. Esta notación se utiliza en todo el texto.

Observe que también podríamos hablar de la derivada de un vector respecto a una matriz, o de cualquiera de las otras celdas sin rellenar de nuestra tabla. Sin embargo, estas derivadas se organizan de forma más natural en un tensor de rango superior a 2, por lo que no encajan perfectamente en una matriz. En las tres secciones siguientes definiremos cada una de estas derivadas y las relacionaremos con otras ramas de las matemáticas. Consulte la sección de convenciones de disposición para ver una tabla más detallada.

Relación con otras derivadas

La derivada matricial es una notación conveniente para llevar la cuenta de las derivadas parciales para hacer cálculos. La derivada de Fréchet es la forma estándar en el entorno del análisis funcional para tomar derivadas con respecto a vectores. En el caso de que una función matricial de una matriz sea diferenciable en Fréchet, las dos derivadas coincidirán hasta la traslación de notaciones. Como ocurre en general con las derivadas parciales, algunas fórmulas pueden extenderse bajo condiciones analíticas más débiles que la existencia de la derivada como cartografía lineal aproximante.

Usos

El cálculo matricial se utiliza para derivar estimadores estocásticos óptimos, que a menudo implican el uso de multiplicadores de Lagrange. Esto incluye la derivación de:

Notación

Las derivadas vectoriales y matriciales presentadas en las secciones siguientes aprovechan al máximo la notación matricial, utilizando una única variable para representar un gran número de variables. En lo que sigue distinguiremos escalares, vectores y matrices por su tipo de letra. M(n,m) es el espacio de matrices reales n×m con n filas y m columnas. Dichas matrices se denotarán utilizando letras mayúsculas en negrita: A, X, Y, etc. Un elemento de M(n,1), es decir, un vector columna, se denota con una letra minúscula en negrita: a, x, y, etc. Un elemento de M(1,1) es un escalar, denotado con letra minúscula cursiva: a, t, x, etc. X^T es la transposición de la matriz, tr(X) es la traza y det(X) o |X| es el determinante. Se supone que todas las funciones son de clase de diferenciabilidad C¹, a menos que se indique lo contrario. Generalmente se utilizarán letras de la primera mitad del alfabeto (a, b, c, ...) para denotar constantes, y de la segunda mitad (t, x, y, ...) para denotar variables.

NOTA: Como se ha mencionado anteriormente, existen notaciones que compiten entre sí para presentar sistemas de derivadas parciales en vectores y matrices, y no parece que esté surgiendo todavía ningún estándar. Las dos secciones introductorias siguientes utilizan la convención de disposición del numerador simplemente por conveniencia, para evitar complicar demasiado la discusión. En la sección siguiente se tratan las convenciones de disposición con más detalle. Es importante tener en cuenta lo siguiente:

A pesar del uso de los términos "disposición del numerador" y "disposición del denominador", en realidad hay más de dos opciones notacionales posibles. La razón es que la elección de numerador frente a denominador (o, en algunas situaciones, numerador frente a mixto) puede hacerse independientemente para las derivadas escalar por vector, vector por escalar, vector por vector y escalar por matriz, y varios autores mezclan y combinan sus elecciones de disposición de diversas maneras.
La elección de la disposición del numerador en las secciones introductorias no implica que ésta sea la opción "correcta" o "superior". Los distintos tipos de disposición tienen ventajas e inconvenientes. La combinación descuidada de fórmulas escritas en diferentes disposiciones puede dar lugar a errores graves, y la conversión de una disposición a otra requiere cuidado para evitar errores. Por ello, cuando se trabaja con fórmulas existentes, lo mejor es identificar el diseño utilizado y mantener la coherencia con él, en lugar de intentar utilizar el mismo diseño en todas las situaciones.

Alternativas

La notación de índice tensorial con su convenio de suma de Einstein es muy similar al cálculo matricial, excepto en que sólo se escribe un componente cada vez. Tiene la ventaja de que se pueden manipular fácilmente tensores de rango arbitrariamente alto, mientras que los tensores de rango superior a dos son bastante difíciles de manejar con la notación matricial. Todo el trabajo aquí puede hacerse en esta notación sin usar la notación matricial de una sola variable. Sin embargo, muchos problemas en la teoría de la estimación y otras áreas de la matemática aplicada darían lugar a demasiados índices como para poder seguirlos adecuadamente, lo que apunta a favor del cálculo matricial en esas áreas. Además, la notación de Einstein puede ser muy útil para demostrar las identidades presentadas aquí (véase la sección sobre diferenciación) como alternativa a la notación típica de elementos, que puede resultar engorrosa cuando se llevan las sumas explícitas. Nótese que una matriz puede considerarse un tensor de rango dos.

Derivadas con vectores

Artículo principal: Cálculo vectorial

Dado que los vectores son matrices con una sola columna, las derivadas matriciales más sencillas son derivadas vectoriales.

Las notaciones desarrolladas aquí pueden acomodar las operaciones usuales del cálculo vectorial identificando el espacio M(n,1) de n-vectores con el espacio euclídeo Rⁿ, y el escalar M(1,1) se identifica con R. El concepto correspondiente del cálculo vectorial se indica al final de cada subsección.

NOTA: La discusión en esta sección asume la convención de disposición del numerador con fines pedagógicos. Algunos autores utilizan convenciones diferentes. En la sección sobre convenciones de disposición se trata esta cuestión con más detalle. Las identidades que se dan más abajo se presentan en formas que pueden usarse en conjunción con todas las convenciones de disposición comunes.

Vector-por-escalar

La derivada de un vector $\mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m}\end{bmatrix}}^{\mathsf {T}}$ , por un escalar x se escribe (en notación de disposición del numerador) como

${\frac {\partial \mathbf {y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x}}\\{\frac {\partial y_{2}}{\partial x}}\\\vdots \\{\frac {\partial y_{m}}{\partial x}}\\\end{bmatrix}}.$

En cálculo vectorial la derivada de un vector y respecto a un escalar x se conoce como vector tangente del vector y, ${\frac {\partial \mathbf {y} }{\partial x}}$ . Nótese aquí que y: R¹ → R^m.

Ejemplo. Ejemplos sencillos de ello son el vector velocidad en el espacio euclídeo, que es el vector tangente del vector posición (considerado en función del tiempo). Asimismo, la aceleración es el vector tangente de la velocidad.

Escalar-por-vector

La derivada de un escalar y por un vector $\mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf {T}}$ , es escrito (en notación de disposición del numerador) como

${\frac {\partial y}{\partial \mathbf {x} }}={\begin{bmatrix}{\frac {\partial y}{\partial x_{1}}}&{\frac {\partial y}{\partial x_{2}}}&\cdots &{\frac {\partial y}{\partial x_{n}}}\end{bmatrix}}.$

En cálculo vectorial, el gradiente de un campo escalar f en el espacio Rⁿ (cuyas coordenadas independientes son las componentes de x) es el transpuesto de la derivada de un escalar por un vector.

$\nabla f={\begin{bmatrix}{\frac {\partial f}{\partial x_{1}}}\\\vdots \\{\frac {\partial f}{\partial x_{n}}}\end{bmatrix}}=\left({\frac {\partial f}{\partial \mathbf {x} }}\right)^{\mathsf {T}}$

Por ejemplo, en física, el campo eléctrico es el gradiente vectorial negativo del potencial eléctrico.

La derivada direccional de una función escalar f(x) del vector espacial x en la dirección del vector unitario u (representado en este caso como un vector columna) se define utilizando el gradiente de la siguiente manera.

$\nabla _{\mathbf {u} }{f}(\mathbf {x} )=\nabla f(\mathbf {x} )\cdot \mathbf {u}$

Utilizando la notación que acabamos de definir para la derivada de un escalar con respecto a un vector podemos reescribir la derivada direccional como $\nabla _{\mathbf {u} }f={\frac {\partial f}{\partial \mathbf {x} }}\mathbf {u} .$ Este tipo de notación será útil para demostrar reglas de producto y reglas en cadena que resultan similares a las que conocemos para la derivada escalar.

Vector-por-vector

Cada uno de los dos casos anteriores puede considerarse como una aplicación de la derivada de un vector respecto de un vector, utilizando adecuadamente un vector de tamaño uno. De forma similar, encontraremos que las derivadas que implican matrices se reducirán a derivadas que implican vectores de forma correspondiente.

La derivada de una función vectorial (un vector cuyas componentes son funciones) $\mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m}\end{bmatrix}}^{\mathsf {T}}$ con respecto a un vector de entrada, $\mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf {T}}$ se escribe (en notación de disposición del numerador) como

${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x_{1}}}&{\frac {\partial y_{1}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{1}}{\partial x_{n}}}\\{\frac {\partial y_{2}}{\partial x_{1}}}&{\frac {\partial y_{2}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{2}}{\partial x_{n}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{m}}{\partial x_{1}}}&{\frac {\partial y_{m}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{m}}{\partial x_{n}}}\\\end{bmatrix}}.$

En cálculo vectorial, la derivada de una función vectorial y con respecto a un vector x cuyas componentes representan un espacio se conoce como pushforward (o diferencial), o matriz jacobiana.

El pushforward a lo largo de una función vectorial f con respecto al vector v en Rⁿ viene dado por $d\,\mathbf {f} (\mathbf {v} )={\frac {\partial \mathbf {f} }{\partial \mathbf {v} }}d\,\mathbf {v} .$

Derivadas con matrices

Hay dos tipos de derivadas con matrices que se pueden organizar en una matriz del mismo tamaño. Se trata de la derivada de una matriz por un escalar y la derivada de un escalar por una matriz. Pueden ser útiles en problemas de minimización que se encuentran en muchas áreas de las matemáticas aplicadas y han adoptado los nombres de matriz tangente y matriz gradiente, respectivamente, después de sus análogos para los vectores.

Nota: La discusión en esta sección asume la convención de disposición del numerador con fines pedagógicos. Algunos autores utilizan convenciones diferentes. En la sección sobre convenciones de disposición se trata este tema con más detalle. Las identidades que se dan más abajo se presentan en formas que pueden usarse en conjunción con todas las convenciones de disposición comunes.

Matriz-por-escalar

La derivada de una función matricial Y por un escalar x se conoce como matriz tangente y viene dada (en notación de disposición del numerador) por

${\frac {\partial \mathbf {Y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{11}}{\partial x}}&{\frac {\partial y_{12}}{\partial x}}&\cdots &{\frac {\partial y_{1n}}{\partial x}}\\{\frac {\partial y_{21}}{\partial x}}&{\frac {\partial y_{22}}{\partial x}}&\cdots &{\frac {\partial y_{2n}}{\partial x}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{m1}}{\partial x}}&{\frac {\partial y_{m2}}{\partial x}}&\cdots &{\frac {\partial y_{mn}}{\partial x}}\\\end{bmatrix}}.$

Escalar-por-matriz

La derivada de una función escalar y de una matriz p×q X de variables independientes, con respecto a la matriz X, viene dada (en notación de disposición del numerador) por

${\frac {\partial y}{\partial \mathbf {X} }}={\begin{bmatrix}{\frac {\partial y}{\partial x_{11}}}&{\frac {\partial y}{\partial x_{21}}}&\cdots &{\frac {\partial y}{\partial x_{p1}}}\\{\frac {\partial y}{\partial x_{12}}}&{\frac {\partial y}{\partial x_{22}}}&\cdots &{\frac {\partial y}{\partial x_{p2}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y}{\partial x_{1q}}}&{\frac {\partial y}{\partial x_{2q}}}&\cdots &{\frac {\partial y}{\partial x_{pq}}}\\\end{bmatrix}}.$

Ejemplos importantes de funciones escalares de matrices son la traza de una matriz y el determinante.

En analogía con el cálculo vectorial, esta derivada suele escribirse de la siguiente manera.

$\nabla _{\mathbf {X} }y(\mathbf {X} )={\frac {\partial y(\mathbf {X} )}{\partial \mathbf {X} }}$

También por analogía con el cálculo vectorial, la derivada direccional de un escalar f(X) de una matriz X en la dirección de la matriz Y viene dada por

$\nabla _{\mathbf {Y} }f=\operatorname {tr} \left({\frac {\partial f}{\partial \mathbf {X} }}\mathbf {Y} \right).$

Es la matriz gradiente, en particular, que encuentra muchos usos en los problemas de minimización en la teoría de la estimación, en particular en la derivación del algoritmo del filtro de Kalman, que es de gran importancia en el campo.

Otras derivadas matriciales

Los tres tipos de derivadas que no se han considerado son las de vectores por matrices, matrices por vectores y matrices por matrices. Estas derivadas no se consideran tan ampliamente y no existe una notación comúnmente aceptada.

Convenciones de disposición

En esta sección se discuten las similitudes y diferencias entre las convenciones notacionales que se utilizan en los distintos campos que aprovechan el cálculo matricial. Aunque en gran medida hay dos convenciones consistentes, algunos autores encuentran conveniente mezclar las dos convenciones en formas que se discuten a continuación. Después de esta sección, las ecuaciones se enumerarán en las dos formas que compiten por separado.

La cuestión fundamental es que la derivada de un vector con respecto a otro vector, es decir ${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}$ , a menudo se escribe de dos formas opuestas. Si el numerador y es de tamaño m y el denominador x de tamaño n, entonces el resultado puede disponerse como una matriz m×n o como una matriz n×m, es decir, los elementos de y dispuestos en columnas y los elementos de x dispuestos en filas, o viceversa. Esto nos lleva a las siguientes posibilidades:

Disposición del numerador, es decir, disposición en función de y y x^T(es decir, contrariamente a x). A veces se denomina formulación jacobiana. Esto corresponde a la presentación m×n del ejemplo anterior, lo que significa que el número de fila de ${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}$ es igual al tamaño del numerador $\mathbf {y}$ y el número de columna de ${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}$ es igual al tamaño de x^T.
Disposición del denominador, es decir, disposición en función de y^T y x (es decir, contrariamente a y). A veces se denomina formulación hessiana. Algunos autores denominan gradiente a esta disposición, a diferencia de la jacobiana (disposición del numerador), que es su transpuesta. (Sin embargo, gradiente significa más comúnmente la derivada ${\frac {\partial y}{\partial \mathbf {x} }}$ , independientemente de la disposición). Esto corresponde a la disposición n×m del ejemplo anterior, lo que significa que el número de fila de ${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}$ es igual al tamaño de x (el denominador).
Una tercera posibilidad que se ve a veces es insistir en escribir la derivada como ${\frac {\partial \mathbf {y} }{\partial \mathbf {x} '}}$ , (es decir, la derivada se toma con respecto a la transpuesta de x) y siguen la disposición del numerador. Esto permite afirmar que la matriz se dispone según numerador y denominador. En la práctica, esto produce los mismos resultados que la disposición del numerador.

Al tratar el gradiente ${\frac {\partial y}{\partial \mathbf {x} }}$ y el caso contrario ${\frac {\partial \mathbf {y} }{\partial x}},$ tenemos los mismos problemas. Para ser coherentes, deberíamos hacer una de las siguientes cosas:

Si elegimos la disposición del numerador para ${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }},$ deberíamos trazar el gradiente ${\frac {\partial y}{\partial \mathbf {x} }}$ como un vector fila, y ${\frac {\partial \mathbf {y} }{\partial x}}$ como vector columna.
Si elegimos la disposición del denominador para ${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }},$ deberíamos trazar el gradiente ${\frac {\partial y}{\partial \mathbf {x} }}$ como un vector columna, y ${\frac {\partial \mathbf {y} }{\partial x}}$ como vector fila.
En la tercera posibilidad anterior, escribimos ${\frac {\partial y}{\partial \mathbf {x} '}}$ y ${\frac {\partial \mathbf {y} }{\partial x}},$ y utilizamos la disposición del numerador.

No todos los libros de texto y artículos de matemáticas son consistentes en este aspecto. Es decir, a veces se utilizan diferentes convenciones en diferentes contextos dentro del mismo libro o documento. Por ejemplo, algunos eligen la disposición del denominador para los gradientes (presentándolos como vectores columna), pero la disposición del numerador para la derivada vectorial ${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}.$

Del mismo modo, cuando se trata de derivadas escalares por matrices ${\frac {\partial y}{\partial \mathbf {X} }}$ y derivadas matriz-por-escalar ${\frac {\partial \mathbf {Y} }{\partial x}},$ entonces la disposición coherente del numerador se dispone según Y y X^T, mientras que la disposición coherente del denominador se dispone según Y^T y X. En la práctica, sin embargo, seguir una disposición del denominador para ${\frac {\partial \mathbf {Y} }{\partial x}},$ y disponiendo el resultado según Y^T, rara vez se ve porque da lugar a fórmulas malas que no se corresponden con las fórmulas escalares. Como resultado, a menudo se pueden encontrar las siguientes disposiciones:

Disposición consistente del numerador, que dispone ${\frac {\partial \mathbf {Y} }{\partial x}}$ en función de Y y ${\frac {\partial y}{\partial \mathbf {X} }}$ según X^T.
Disposición mixta, que establece ${\frac {\partial \mathbf {Y} }{\partial x}}$ según Y y ${\frac {\partial y}{\partial \mathbf {X} }}$ según X.
Utilizar la notación ${\frac {\partial y}{\partial \mathbf {X} '}},$ con resultados iguales a la disposición coherente del numerador.

En las siguientes fórmulas manejamos las cinco combinaciones posibles ${\frac {\partial y}{\partial \mathbf {x} }},{\frac {\partial \mathbf {y} }{\partial x}},{\frac {\partial \mathbf {y} }{\partial \mathbf {x} }},{\frac {\partial y}{\partial \mathbf {X} }}$ y ${\frac {\partial \mathbf {Y} }{\partial x}}$ por separado. También manejamos casos de derivadas escalares por escalares que implican un vector o matriz intermedia. (Esto puede surgir, por ejemplo, si una curva paramétrica multidimensional se define en términos de una variable escalar, y luego se toma una derivada de una función escalar de la curva con respecto al escalar que parametriza la curva). Para cada una de las distintas combinaciones, damos resultados de disposición del numerador y del denominador, excepto en los casos anteriores en los que la disposición del denominador rara vez se produce. En los casos de matrices en los que tiene sentido, damos resultados de disposición del numerador y de disposición mixta. Como se ha indicado anteriormente, los casos en los que los denominadores de vectores y matrices se escriben en notación de transposición son equivalentes a la disposición del numerador con los denominadores escritos sin la transposición.

Tenga en cuenta que varios autores utilizan diferentes combinaciones de disposiciones del numerador y del denominador para diferentes tipos de derivadas, y no hay garantía de que un autor utilice sistemáticamente la disposición del numerador o del denominador para todos los tipos. Compare las fórmulas siguientes con las citadas en la fuente para determinar la disposición utilizada para ese tipo concreto de derivada, pero tenga cuidado de no asumir que las derivadas de otros tipos siguen necesariamente el mismo tipo de disposición.

Cuando se toman derivadas con un denominador agregado (vectorial o matricial) para encontrar un máximo o un mínimo del agregado, debe tenerse en cuenta que el uso de la disposición del numerador producirá resultados que se transponen con respecto al agregado. Por ejemplo, al intentar hallar la estimación de máxima verosimilitud de una distribución normal multivariante utilizando el cálculo matricial, si el dominio es un vector columna k×1, entonces el resultado utilizando la disposición del numerador tendrá la forma de un vector fila 1×k. Por lo tanto, o bien los resultados deben transponerse al final o bien debe utilizarse la disposición del denominador (o disposición mixta).

Resultado de diferenciar varios tipos de agregados con otros tipos de agregados
		Escalar y		Vector columna y (tamaño m×1)		Matriz Y (tamaño m×n)
		Notación	Tipo	Notación	Tipo	Notación	Tipo
Escalar x	Numerador	${\frac {\partial y}{\partial x}}$	Escalar	${\frac {\partial \mathbf {y} }{\partial x}}$	Tamaño-m vector columna	${\frac {\partial \mathbf {Y} }{\partial x}}$	m×n matriz
Escalar x	Denominador	${\frac {\partial y}{\partial x}}$	Escalar	${\frac {\partial \mathbf {y} }{\partial x}}$	Tamaño-m vector de fila	${\frac {\partial \mathbf {Y} }{\partial x}}$
Vector columna x (tamaño n×1)	Numerador	${\frac {\partial y}{\partial \mathbf {x} }}$	Tamaño-n vector de fila	${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}$	m×n matriz	${\frac {\partial \mathbf {Y} }{\partial \mathbf {x} }}$
Vector columna x (tamaño n×1)	Denominador	${\frac {\partial y}{\partial \mathbf {x} }}$	Tamaño-n vector de fila	${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}$	n×m matriz	${\frac {\partial \mathbf {Y} }{\partial \mathbf {x} }}$
Matriz X (tamaño p×q)	Numerador	${\frac {\partial y}{\partial \mathbf {X} }}$	q×p matriz	${\frac {\partial \mathbf {y} }{\partial \mathbf {X} }}$		${\frac {\partial \mathbf {Y} }{\partial \mathbf {X} }}$
Matriz X (tamaño p×q)	Denominador	${\frac {\partial y}{\partial \mathbf {X} }}$	p×q matriz	${\frac {\partial \mathbf {y} }{\partial \mathbf {X} }}$		${\frac {\partial \mathbf {Y} }{\partial \mathbf {X} }}$

Los resultados de las operaciones se transpondrán cuando se cambie entre la notación de disposición del numerador y la notación de disposición del denominador.

Notación numerador-disposición

Utilizando la notación numerador-disposición, tenemos:^[1]

${\begin{aligned}{\frac {\partial y}{\partial \mathbf {x} }}&={\begin{bmatrix}{\frac {\partial y}{\partial x_{1}}}&{\frac {\partial y}{\partial x_{2}}}&\cdots &{\frac {\partial y}{\partial x_{n}}}\end{bmatrix}}.\\{\frac {\partial \mathbf {y} }{\partial x}}&={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x}}\\{\frac {\partial y_{2}}{\partial x}}\\\vdots \\{\frac {\partial y_{m}}{\partial x}}\\\end{bmatrix}}.\\{\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}&={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x_{1}}}&{\frac {\partial y_{1}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{1}}{\partial x_{n}}}\\{\frac {\partial y_{2}}{\partial x_{1}}}&{\frac {\partial y_{2}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{2}}{\partial x_{n}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{m}}{\partial x_{1}}}&{\frac {\partial y_{m}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{m}}{\partial x_{n}}}\\\end{bmatrix}}.\\{\frac {\partial y}{\partial \mathbf {X} }}&={\begin{bmatrix}{\frac {\partial y}{\partial x_{11}}}&{\frac {\partial y}{\partial x_{21}}}&\cdots &{\frac {\partial y}{\partial x_{p1}}}\\{\frac {\partial y}{\partial x_{12}}}&{\frac {\partial y}{\partial x_{22}}}&\cdots &{\frac {\partial y}{\partial x_{p2}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y}{\partial x_{1q}}}&{\frac {\partial y}{\partial x_{2q}}}&\cdots &{\frac {\partial y}{\partial x_{pq}}}\\\end{bmatrix}}.\end{aligned}}$

Las siguientes definiciones sólo se ofrecen en notación numerador-disposición:

${\begin{aligned}{\frac {\partial \mathbf {Y} }{\partial x}}&={\begin{bmatrix}{\frac {\partial y_{11}}{\partial x}}&{\frac {\partial y_{12}}{\partial x}}&\cdots &{\frac {\partial y_{1n}}{\partial x}}\\{\frac {\partial y_{21}}{\partial x}}&{\frac {\partial y_{22}}{\partial x}}&\cdots &{\frac {\partial y_{2n}}{\partial x}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{m1}}{\partial x}}&{\frac {\partial y_{m2}}{\partial x}}&\cdots &{\frac {\partial y_{mn}}{\partial x}}\\\end{bmatrix}}.\\d\mathbf {X} &={\begin{bmatrix}dx_{11}&dx_{12}&\cdots &dx_{1n}\\dx_{21}&dx_{22}&\cdots &dx_{2n}\\\vdots &\vdots &\ddots &\vdots \\dx_{m1}&dx_{m2}&\cdots &dx_{mn}\\\end{bmatrix}}.\end{aligned}}$

Notación denominador-disposición

Usando la notación denominador-disposición, tenemos:^[2]

${\begin{aligned}{\frac {\partial y}{\partial \mathbf {x} }}&={\begin{bmatrix}{\frac {\partial y}{\partial x_{1}}}\\{\frac {\partial y}{\partial x_{2}}}\\\vdots \\{\frac {\partial y}{\partial x_{n}}}\\\end{bmatrix}}.\\{\frac {\partial \mathbf {y} }{\partial x}}&={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x}}&{\frac {\partial y_{2}}{\partial x}}&\cdots &{\frac {\partial y_{m}}{\partial x}}\end{bmatrix}}.\\{\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}&={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x_{1}}}&{\frac {\partial y_{2}}{\partial x_{1}}}&\cdots &{\frac {\partial y_{m}}{\partial x_{1}}}\\{\frac {\partial y_{1}}{\partial x_{2}}}&{\frac {\partial y_{2}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{m}}{\partial x_{2}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{1}}{\partial x_{n}}}&{\frac {\partial y_{2}}{\partial x_{n}}}&\cdots &{\frac {\partial y_{m}}{\partial x_{n}}}\\\end{bmatrix}}.\\{\frac {\partial y}{\partial \mathbf {X} }}&={\begin{bmatrix}{\frac {\partial y}{\partial x_{11}}}&{\frac {\partial y}{\partial x_{12}}}&\cdots &{\frac {\partial y}{\partial x_{1q}}}\\{\frac {\partial y}{\partial x_{21}}}&{\frac {\partial y}{\partial x_{22}}}&\cdots &{\frac {\partial y}{\partial x_{2q}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y}{\partial x_{p1}}}&{\frac {\partial y}{\partial x_{p2}}}&\cdots &{\frac {\partial y}{\partial x_{pq}}}\\\end{bmatrix}}.\end{aligned}}$

Identidades

Como se ha indicado anteriormente, en general, los resultados de las operaciones se transpondrán al cambiar entre la notación de disposición del numerador y la notación de disposición del denominador.

Para entender mejor todas las identidades que aparecen a continuación, hay que tener en cuenta las reglas más importantes: la regla de la cadena, la regla del producto y la regla de la suma. La regla de la suma se aplica universalmente, y la regla del producto se aplica en la mayoría de los casos siguientes, siempre que se mantenga el orden de los productos matriciales, ya que los productos matriciales no son conmutativos. La regla de la cadena se aplica en algunos de los casos, pero lamentablemente no se aplica en las derivadas matriz por escalar ni en las derivadas escalar por matriz (en este último caso, se trata sobre todo del operador de traza aplicado a matrices). En este último caso, la regla del producto tampoco se puede aplicar directamente, pero se puede hacer el equivalente con un poco más de trabajo utilizando las identidades diferenciales.

Las siguientes identidades adoptan las siguientes convenciones:

los escalares, a, b, c, d, y e son constantes respecto de, y los escalares, u, y v son funciones de una de x, x, o X;
los vectores a, b, c, d y e son constantes con respecto de, y los vectores u y v son funciones de x, x o X;
las matrices A, B, C, D y E son constantes con respecto de, y las matrices U y V son funciones de x, x o X.

Identidades vector-por-vector

Esto se presenta en primer lugar porque todas las operaciones que se aplican a la diferenciación vector-por-vector se aplican directamente a la diferenciación escalar-por-vector o escalar simplemente reduciendo el vector apropiado en el numerador o denominador a un escalar.

Identidades: vector-por-vector ${\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}$
Condición	Expresión	Disposición del numerador, es decir, por y y x^T	Disposición del denominador, es decir, por y^T y x
a no es una función de x	${\frac {\partial \mathbf {a} }{\partial \mathbf {x} }}=$	$\mathbf {0}$
	${\frac {\partial \mathbf {x} }{\partial \mathbf {x} }}=$	$\mathbf {I}$
A no es una función de x	${\frac {\partial \mathbf {A} \mathbf {x} }{\partial \mathbf {x} }}=$	$\mathbf {A}$	$\mathbf {A} ^{\top }$
A no es una función de x	${\frac {\partial \mathbf {x} ^{\top }\mathbf {A} }{\partial \mathbf {x} }}=$	$\mathbf {A} ^{\top }$	$\mathbf {A}$
a no es una función de x, u = u(x)	${\frac {\partial a\mathbf {u} }{\partial \,\mathbf {x} }}=$	$a{\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}$
v = v(x), a no es una función de x	${\frac {\partial v\mathbf {a} }{\partial \mathbf {x} }}=$	$\mathbf {a} {\frac {\partial v}{\partial \mathbf {x} }}$	${\frac {\partial v}{\partial \mathbf {x} }}\mathbf {a} ^{\top }$
v = v(x), u = u(x)	${\frac {\partial v\mathbf {u} }{\partial \mathbf {x} }}=$	$v{\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}+\mathbf {u} {\frac {\partial v}{\partial \mathbf {x} }}$	$v{\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}+{\frac {\partial v}{\partial \mathbf {x} }}\mathbf {u} ^{\top }$
A no es una función de x, u = u(x)	${\frac {\partial \mathbf {A} \mathbf {u} }{\partial \mathbf {x} }}=$	$\mathbf {A} {\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}$	${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}\mathbf {A} ^{\top }$
u = u(x), v = v(x)	${\frac {\partial (\mathbf {u} +\mathbf {v} )}{\partial \mathbf {x} }}=$	${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}+{\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}$
u = u(x)	${\frac {\partial \mathbf {g(u)} }{\partial \mathbf {x} }}=$	${\frac {\partial \mathbf {g(u)} }{\partial \mathbf {u} }}{\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}$	${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}{\frac {\partial \mathbf {g(u)} }{\partial \mathbf {u} }}$
u = u(x)	${\frac {\partial \mathbf {f(g(u))} }{\partial \mathbf {x} }}=$	${\frac {\partial \mathbf {f(g)} }{\partial \mathbf {g} }}{\frac {\partial \mathbf {g(u)} }{\partial \mathbf {u} }}{\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}$	${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}{\frac {\partial \mathbf {g(u)} }{\partial \mathbf {u} }}{\frac {\partial \mathbf {f(g)} }{\partial \mathbf {g} }}$

Identidad escalar-por-vector

Las identidades fundamentales se sitúan por encima de la línea negra gruesa.

Identidades: escalar-por-vector ${\frac {\partial y}{\partial \mathbf {x} }}=\nabla _{\mathbf {x} }y$
Condición	Expresión	Disposición del numerador, es decir, por x^T; el resultado es el vector de fila	Disposición del denominador, es decir, por x; el resultado es el vector de columna
a no es una función de x	${\frac {\partial a}{\partial \mathbf {x} }}=$	$\mathbf {0} ^{\top }$ ^[3]	$\mathbf {0}$ ^[3]
a no es una función de x, u = u(x)	${\frac {\partial au}{\partial \mathbf {x} }}=$	$a{\frac {\partial u}{\partial \mathbf {x} }}$
u = u(x), v = v(x)	${\frac {\partial (u+v)}{\partial \mathbf {x} }}=$	${\frac {\partial u}{\partial \mathbf {x} }}+{\frac {\partial v}{\partial \mathbf {x} }}$
u = u(x), v = v(x)	${\frac {\partial uv}{\partial \mathbf {x} }}=$	$u{\frac {\partial v}{\partial \mathbf {x} }}+v{\frac {\partial u}{\partial \mathbf {x} }}$
u = u(x)	${\frac {\partial g(u)}{\partial \mathbf {x} }}=$	${\frac {\partial g(u)}{\partial u}}{\frac {\partial u}{\partial \mathbf {x} }}$
u = u(x)	${\frac {\partial f(g(u))}{\partial \mathbf {x} }}=$	${\frac {\partial f(g)}{\partial g}}{\frac {\partial g(u)}{\partial u}}{\frac {\partial u}{\partial \mathbf {x} }}$
u = u(x), v = v(x)	${\frac {\partial (\mathbf {u} \cdot \mathbf {v} )}{\partial \mathbf {x} }}={\frac {\partial \mathbf {u} ^{\top }\mathbf {v} }{\partial \mathbf {x} }}=$	$\mathbf {u} ^{\top }{\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}+\mathbf {v} ^{\top }{\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}$ ${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }},{\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}$ en la disposición de numerador	${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}\mathbf {v} +{\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}\mathbf {u}$ ${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }},{\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}$ en la disposición de denominador
u = u(x), v = v(x), A no es una función de x	${\frac {\partial (\mathbf {u} \cdot \mathbf {A} \mathbf {v} )}{\partial \mathbf {x} }}={\frac {\partial \mathbf {u} ^{\top }\mathbf {A} \mathbf {v} }{\partial \mathbf {x} }}=$	$\mathbf {u} ^{\top }\mathbf {A} {\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}+\mathbf {v} ^{\top }\mathbf {A} ^{\top }{\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}$ ${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }},{\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}$ en la disposición de numerador	${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}\mathbf {A} \mathbf {v} +{\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}\mathbf {A} ^{\top }\mathbf {u}$ ${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }},{\frac {\partial \mathbf {v} }{\partial \mathbf {x} }}$ en la disposición de denominador
	${\frac {\partial ^{2}f}{\partial \mathbf {x} \partial \mathbf {x} ^{\top }}}=$	$\mathbf {H} ^{\top }$	$\mathbf {H}$ , la matriz hessiana^[4]
a no es una función de x	${\frac {\partial (\mathbf {a} \cdot \mathbf {x} )}{\partial \mathbf {x} }}={\frac {\partial (\mathbf {x} \cdot \mathbf {a} )}{\partial \mathbf {x} }}=$ ${\frac {\partial \mathbf {a} ^{\top }\mathbf {x} }{\partial \mathbf {x} }}={\frac {\partial \mathbf {x} ^{\top }\mathbf {a} }{\partial \mathbf {x} }}=$	$\mathbf {a} ^{\top }$	$\mathbf {a}$
A no es una función de x b no es una función de x	${\frac {\partial \mathbf {b} ^{\top }\mathbf {A} \mathbf {x} }{\partial \mathbf {x} }}=$	$\mathbf {b} ^{\top }\mathbf {A}$	$\mathbf {A} ^{\top }\mathbf {b}$
A no es una función de x	${\frac {\partial \mathbf {x} ^{\top }\mathbf {A} \mathbf {x} }{\partial \mathbf {x} }}=$	$\mathbf {x} ^{\top }\left(\mathbf {A} +\mathbf {A} ^{\top }\right)$	$\left(\mathbf {A} +\mathbf {A} ^{\top }\right)\mathbf {x}$
A no es una función de x A es simétrica	${\frac {\partial \mathbf {x} ^{\top }\mathbf {A} \mathbf {x} }{\partial \mathbf {x} }}=$	$2\mathbf {x} ^{\top }\mathbf {A}$	$2\mathbf {A} \mathbf {x}$
A no es una función de x	${\frac {\partial ^{2}\mathbf {x} ^{\top }\mathbf {A} \mathbf {x} }{\partial \mathbf {x} \partial \mathbf {x} ^{\top }}}=$	$\mathbf {A} +\mathbf {A} ^{\top }$
A no es una función de x A es simétrica symmetric	${\frac {\partial ^{2}\mathbf {x} ^{\top }\mathbf {A} \mathbf {x} }{\partial \mathbf {x} \partial \mathbf {x} ^{\top }}}=$	$2\mathbf {A}$
	${\frac {\partial (\mathbf {x} \cdot \mathbf {x} )}{\partial \mathbf {x} }}={\frac {\partial \mathbf {x} ^{\top }\mathbf {x} }{\partial \mathbf {x} }}={\frac {\partial \left\Vert \mathbf {x} \right\Vert ^{2}}{\partial \mathbf {x} }}=$	$2\mathbf {x} ^{\top }$	$2\mathbf {x}$
a no es una función de x, u = u(x)	${\frac {\partial (\mathbf {a} \cdot \mathbf {u} )}{\partial \mathbf {x} }}={\frac {\partial \mathbf {a} ^{\top }\mathbf {u} }{\partial \mathbf {x} }}=$	$\mathbf {a} ^{\top }{\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}$ ${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}$ en disposición de numerador	${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}\mathbf {a}$ ${\frac {\partial \mathbf {u} }{\partial \mathbf {x} }}$ en disposición de denominador
a, b no son funciones de x	${\frac {\partial \;{\textbf {a}}^{\top }{\textbf {x}}{\textbf {x}}^{\top }{\textbf {b}}}{\partial \;{\textbf {x}}}}=$	${\textbf {x}}^{\top }\left({\textbf {a}}{\textbf {b}}^{\top }+{\textbf {b}}{\textbf {a}}^{\top }\right)$	$\left({\textbf {a}}{\textbf {b}}^{\top }+{\textbf {b}}{\textbf {a}}^{\top }\right){\textbf {x}}$
A, b, C, D, e no son funciones de x	${\frac {\partial \;({\textbf {A}}{\textbf {x}}+{\textbf {b}})^{\top }{\textbf {C}}({\textbf {D}}{\textbf {x}}+{\textbf {e}})}{\partial \;{\textbf {x}}}}=$	$({\textbf {D}}{\textbf {x}}+{\textbf {e}})^{\top }{\textbf {C}}^{\top }{\textbf {A}}+({\textbf {A}}{\textbf {x}}+{\textbf {b}})^{\top }{\textbf {C}}{\textbf {D}}$	${\textbf {D}}^{\top }{\textbf {C}}^{\top }({\textbf {A}}{\textbf {x}}+{\textbf {b}})+{\textbf {A}}^{\top }{\textbf {C}}({\textbf {D}}{\textbf {x}}+{\textbf {e}})$
a no es una función de x	${\frac {\partial \;\\|\mathbf {x} -\mathbf {a} \\|}{\partial \;\mathbf {x} }}=$	${\frac {(\mathbf {x} -\mathbf {a} )^{\top }}{\\|\mathbf {x} -\mathbf {a} \\|}}$	${\frac {\mathbf {x} -\mathbf {a} }{\\|\mathbf {x} -\mathbf {a} \\|}}$

Identidades vector-por-escala

Identidades: vector-por-escala ${\frac {\partial \mathbf {y} }{\partial x}}$
Condición	Expresión	Disposición de numerador, es decir, por y, el resultado es el vector columna	Disposición de denominador, es decir, por y^T, el resultado es el vector fila
a no es una función de x	${\frac {\partial \mathbf {a} }{\partial x}}=$	$\mathbf {0}$ ^[3]
a no es una función de x, u = u(x)	${\frac {\partial a\mathbf {u} }{\partial x}}=$	$a{\frac {\partial \mathbf {u} }{\partial x}}$
A no es una función de x, u = u(x)	${\frac {\partial \mathbf {A} \mathbf {u} }{\partial x}}=$	$\mathbf {A} {\frac {\partial \mathbf {u} }{\partial x}}$	${\frac {\partial \mathbf {u} }{\partial x}}\mathbf {A} ^{\top }$
u = u(x)	${\frac {\partial \mathbf {u} ^{\top }}{\partial x}}=$	$\left({\frac {\partial \mathbf {u} }{\partial x}}\right)^{\top }$
u = u(x), v = v(x)	${\frac {\partial (\mathbf {u} +\mathbf {v} )}{\partial x}}=$	${\frac {\partial \mathbf {u} }{\partial x}}+{\frac {\partial \mathbf {v} }{\partial x}}$
u = u(x), v = v(x)	${\frac {\partial (\mathbf {u} ^{\top }\times \mathbf {v} )}{\partial x}}=$	$\left({\frac {\partial \mathbf {u} }{\partial x}}\right)^{\top }\times \mathbf {v} +\mathbf {u} ^{\top }\times {\frac {\partial \mathbf {v} }{\partial x}}$	${\frac {\partial \mathbf {u} }{\partial x}}\times \mathbf {v} +\mathbf {u} ^{\top }\times \left({\frac {\partial \mathbf {v} }{\partial x}}\right)^{\top }$
u = u(x)	${\frac {\partial \mathbf {g(u)} }{\partial x}}=$	${\frac {\partial \mathbf {g(u)} }{\partial \mathbf {u} }}{\frac {\partial \mathbf {u} }{\partial x}}$	${\frac {\partial \mathbf {u} }{\partial x}}{\frac {\partial \mathbf {g(u)} }{\partial \mathbf {u} }}$
u = u(x)	${\frac {\partial \mathbf {g(u)} }{\partial x}}=$	Supone una disposición coherente de la matriz; véase más abajo.
u = u(x)	${\frac {\partial \mathbf {f(g(u))} }{\partial x}}=$	${\frac {\partial \mathbf {f(g)} }{\partial \mathbf {g} }}{\frac {\partial \mathbf {g(u)} }{\partial \mathbf {u} }}{\frac {\partial \mathbf {u} }{\partial x}}$	${\frac {\partial \mathbf {u} }{\partial x}}{\frac {\partial \mathbf {g(u)} }{\partial \mathbf {u} }}{\frac {\partial \mathbf {f(g)} }{\partial \mathbf {g} }}$
u = u(x)	${\frac {\partial \mathbf {f(g(u))} }{\partial x}}=$	Supone una disposición coherente de la matriz; véase más abajo.
U = U(x), v = v(x)	${\frac {\partial (\mathbf {U} \times \mathbf {v} )}{\partial x}}=$	${\frac {\partial \mathbf {U} }{\partial x}}\times \mathbf {v} +\mathbf {U} \times {\frac {\partial \mathbf {v} }{\partial x}}$	$\mathbf {v} ^{\top }\times \left({\frac {\partial \mathbf {U} }{\partial x}}\right)+{\frac {\partial \mathbf {v} }{\partial x}}\times \mathbf {U} ^{\top }$

NOTA: Las fórmulas que implican las derivadas vector-por-vector ${\frac {\partial \mathbf {g(u)} }{\partial \mathbf {u} }}$ y ${\frac {\partial \mathbf {f(g)} }{\partial \mathbf {g} }}$ (cuyas salidas son matrices) suponen que las matrices se disponen de forma coherente con la disposición de los vectores, es decir, matriz de disposición-numerador cuando vector de disposición-numerador y viceversa; de lo contrario, transponen las derivadas vector-por-vector.

Identidades escalar-por-matriz

Obsérvese que no existen equivalentes exactos de la regla del producto escalar y de la regla de la cadena cuando se aplican a funciones de matrices con valores matriciales. Sin embargo, la regla del producto de este tipo sí se aplica a la forma diferencial (véase más adelante), y ésta es la forma de derivar muchas de las identidades que aparecen a continuación y que implican la función traza, combinada con el hecho de que la función traza permite la transposición y la permutación cíclica, es decir:

{\begin{aligned}\operatorname {tr} (\mathbf {A} )&=\operatorname {tr} \left(\mathbf {A^{\top }} \right)\\\operatorname {tr} (\mathbf {ABCD} )&=\operatorname {tr} (\mathbf {BCDA} )=\operatorname {tr} (\mathbf {CDAB} )=\operatorname {tr} (\mathbf {DABC} )\end{aligned}}

Por ejemplo, para computar ${\frac {\partial \operatorname {tr} (\mathbf {AXBX^{\top }C} )}{\partial \mathbf {X} }}:$

{\begin{aligned}d\operatorname {tr} (\mathbf {AXBX^{\top }C} )&=d\operatorname {tr} \left(\mathbf {CAXBX^{\top }} \right)=\operatorname {tr} \left(d\left(\mathbf {CAXBX^{\top }} \right)\right)\\&=\operatorname {tr} \left(\mathbf {CAX} d(\mathbf {BX^{\top }} \right)+d\left(\mathbf {CAX} )\mathbf {BX^{\top }} \right)\\&=\operatorname {tr} \left(\mathbf {CAX} d\left(\mathbf {BX^{\top }} \right)\right)+\operatorname {tr} \left(d(\mathbf {CAX} )\mathbf {BX^{\top }} \right)\\&=\operatorname {tr} \left(\mathbf {CAXB} d\left(\mathbf {X^{\top }} \right)\right)+\operatorname {tr} \left(\mathbf {CA} (d\mathbf {X} )\mathbf {BX^{\top }} \right)\\&=\operatorname {tr} \left(\mathbf {CAXB} (d\mathbf {X} )^{\top }\right)+\operatorname {tr} (\mathbf {CA} \left(d\mathbf {X} )\mathbf {BX^{\top }} \right)\\&=\operatorname {tr} \left(\left(\mathbf {CAXB} (d\mathbf {X} )^{\top }\right)^{\top }\right)+\operatorname {tr} \left(\mathbf {CA} (d\mathbf {X} )\mathbf {BX^{\top }} \right)\\&=\operatorname {tr} \left((d\mathbf {X} )\mathbf {B^{\top }X^{\top }A^{\top }C^{\top }} \right)+\operatorname {tr} \left(\mathbf {CA} (d\mathbf {X} )\mathbf {BX^{\top }} \right)\\&=\operatorname {tr} \left(\mathbf {B^{\top }X^{\top }A^{\top }C^{\top }} (d\mathbf {X} )\right)+\operatorname {tr} \left(\mathbf {BX^{\top }} \mathbf {CA} (d\mathbf {X} )\right)\\&=\operatorname {tr} \left(\left(\mathbf {B^{\top }X^{\top }A^{\top }C^{\top }} +\mathbf {BX^{\top }} \mathbf {CA} \right)d\mathbf {X} \right)\\&=\operatorname {tr} \left(\left(\mathbf {CAXB} +\mathbf {A^{\top }C^{\top }XB^{\top }} \right)^{\top }d\mathbf {X} \right)\end{aligned}}

En ese sentido,

{\frac {\partial \left(\mathbf {AXBX^{\top }C} \right)}{\partial \mathbf {X} }}=\mathbf {B^{\top }X^{\top }A^{\top }C^{\top }} +\mathbf {BX^{\top }CA} .

(disposición de numerador)

{\frac {\partial \left(\mathbf {AXBX^{\top }C} \right)}{\partial \mathbf {X} }}=\mathbf {CAXB} +\mathbf {A^{\top }C^{\top }XB^{\top }} .

(disposición de denominador)

(Para el último paso, véase la sección Conversión de forma diferencial a derivada).

Identidades: escalar-por-matriz ${\frac {\partial y}{\partial \mathbf {X} }}$
Condición	Expresión	Disposición de numerador, es decir, por X^T	Disposición de denominador, es decir, por X
a no es una función de X	${\frac {\partial a}{\partial \mathbf {X} }}=$	$\mathbf {0} ^{\top }$ ^[5]	$\mathbf {0}$ ^[5]
a no es una función de X, u = u(X)	${\frac {\partial au}{\partial \mathbf {X} }}=$	$a{\frac {\partial u}{\partial \mathbf {X} }}$
u = u(X), v = v(X)	${\frac {\partial (u+v)}{\partial \mathbf {X} }}=$	${\frac {\partial u}{\partial \mathbf {X} }}+{\frac {\partial v}{\partial \mathbf {X} }}$
u = u(X), v = v(X)	${\frac {\partial uv}{\partial \mathbf {X} }}=$	$u{\frac {\partial v}{\partial \mathbf {X} }}+v{\frac {\partial u}{\partial \mathbf {X} }}$
u = u(X)	${\frac {\partial g(u)}{\partial \mathbf {X} }}=$	${\frac {\partial g(u)}{\partial u}}{\frac {\partial u}{\partial \mathbf {X} }}$
u = u(X)	${\frac {\partial f(g(u))}{\partial \mathbf {X} }}=$	${\frac {\partial f(g)}{\partial g}}{\frac {\partial g(u)}{\partial u}}{\frac {\partial u}{\partial \mathbf {X} }}$
U = U(X)	^[4] ${\frac {\partial g(\mathbf {U} )}{\partial X_{ij}}}=$	$\operatorname {tr} \left({\frac {\partial g(\mathbf {U} )}{\partial \mathbf {U} }}{\frac {\partial \mathbf {U} }{\partial X_{ij}}}\right)$	$\operatorname {tr} \left(\left({\frac {\partial g(\mathbf {U} )}{\partial \mathbf {U} }}\right)^{\top }{\frac {\partial \mathbf {U} }{\partial X_{ij}}}\right)$
U = U(X)	^[4] ${\frac {\partial g(\mathbf {U} )}{\partial X_{ij}}}=$	Ambas formas asumen la disposición de numerador para ${\frac {\partial \mathbf {U} }{\partial X_{ij}}},$ es decir, la disposición mixta se utiliza si es que se usa la disposición de denominador X.
a y b no son funciones de X	${\frac {\partial \mathbf {a} ^{\top }\mathbf {X} \mathbf {b} }{\partial \mathbf {X} }}=$	$\mathbf {b} \mathbf {a} ^{\top }$	$\mathbf {a} \mathbf {b} ^{\top }$
a y b no son funciones de X	${\frac {\partial \mathbf {a} ^{\top }\mathbf {X} ^{\top }\mathbf {b} }{\partial \mathbf {X} }}=$	$\mathbf {a} \mathbf {b} ^{\top }$	$\mathbf {b} \mathbf {a} ^{\top }$
a, b y C no son funciones de X	${\frac {\partial (\mathbf {X} \mathbf {a} +\mathbf {b} )^{\top }\mathbf {C} (\mathbf {X} \mathbf {a} +\mathbf {b} )}{\partial \mathbf {X} }}=$	$\left(\left(\mathbf {C} +\mathbf {C} ^{\top }\right)(\mathbf {X} \mathbf {a} +\mathbf {b} )\mathbf {a} ^{\top }\right)^{\top }$	$\left(\mathbf {C} +\mathbf {C} ^{\top }\right)(\mathbf {X} \mathbf {a} +\mathbf {b} )\mathbf {a} ^{\top }$
a, b y C no son funciones de X	${\frac {\partial (\mathbf {X} \mathbf {a} )^{\top }\mathbf {C} (\mathbf {X} \mathbf {b} )}{\partial \mathbf {X} }}=$	$\left(\mathbf {C} \mathbf {X} \mathbf {b} \mathbf {a} ^{\top }+\mathbf {C} ^{\top }\mathbf {X} \mathbf {a} \mathbf {b} ^{\top }\right)^{\top }$	$\mathbf {C} \mathbf {X} \mathbf {b} \mathbf {a} ^{\top }+\mathbf {C} ^{\top }\mathbf {X} \mathbf {a} \mathbf {b} ^{\top }$
	${\frac {\partial \operatorname {tr} (\mathbf {X} )}{\partial \mathbf {X} }}=$	$\mathbf {I}$
U = U(X), V = V(X)	${\frac {\partial \operatorname {tr} (\mathbf {U} +\mathbf {V} )}{\partial \mathbf {X} }}=$	${\frac {\partial \operatorname {tr} (\mathbf {U} )}{\partial \mathbf {X} }}+{\frac {\partial \operatorname {tr} (\mathbf {V} )}{\partial \mathbf {X} }}$
a no es una función de X, U = U(X)	${\frac {\partial \operatorname {tr} (a\mathbf {U} )}{\partial \mathbf {X} }}=$	$a{\frac {\partial \operatorname {tr} (\mathbf {U} )}{\partial \mathbf {X} }}$
g(X) es cualquier polinomio con coeficientes escalares o cualquier función matricial definida por una serie polinómica infinita (por ejemplo e^X, sin(X), cos(X), ln(X), entre otros, utilizando una serie de Taylor); g(x)es la función escalar equivalente, g′(x) es su derivada, y g′(X) es la función matricial correspondiente.	${\frac {\partial \operatorname {tr} (\mathbf {g(X)} )}{\partial \mathbf {X} }}=$	$\mathbf {g} '(\mathbf {X} )$	$\left(\mathbf {g} '(\mathbf {X} )\right)^{\top }$
A no es una función de X	^[6] ${\frac {\partial \operatorname {tr} (\mathbf {AX} )}{\partial \mathbf {X} }}={\frac {\partial \operatorname {tr} (\mathbf {XA} )}{\partial \mathbf {X} }}=$	$\mathbf {A}$	$\mathbf {A} ^{\top }$
A no es una función de X	^[4] ${\frac {\partial \operatorname {tr} \left(\mathbf {AX^{\top }} \right)}{\partial \mathbf {X} }}={\frac {\partial \operatorname {tr} \left(\mathbf {X^{\top }A} \right)}{\partial \mathbf {X} }}=$	$\mathbf {A} ^{\top }$	$\mathbf {A}$
A no es una función de X	^[4] ${\frac {\partial \operatorname {tr} \left(\mathbf {X^{\top }AX} \right)}{\partial \mathbf {X} }}=$	$\mathbf {X} ^{\top }\left(\mathbf {A} +\mathbf {A} ^{\top }\right)$	$\left(\mathbf {A} +\mathbf {A} ^{\top }\right)\mathbf {X}$
A no es una función de X	^[4] ${\frac {\partial \operatorname {tr} (\mathbf {X^{-1}A} )}{\partial \mathbf {X} }}=$	$-\mathbf {X} ^{-1}\mathbf {A} \mathbf {X} ^{-1}$	$-\left(\mathbf {X} ^{-1}\right)^{\top }\mathbf {A} ^{\top }\left(\mathbf {X} ^{-1}\right)^{\top }$
A, B no son funciones de X	${\frac {\partial \operatorname {tr} (\mathbf {AXB} )}{\partial \mathbf {X} }}={\frac {\partial \operatorname {tr} (\mathbf {BAX} )}{\partial \mathbf {X} }}=$	$\mathbf {BA}$	$\mathbf {A^{\top }B^{\top }}$
A, B, C no son funciones de X	${\frac {\partial \operatorname {tr} \left(\mathbf {AXBX^{\top }C} \right)}{\partial \mathbf {X} }}=$	$\mathbf {BX^{\top }CA} +\mathbf {B^{\top }X^{\top }A^{\top }C^{\top }}$	$\mathbf {A^{\top }C^{\top }XB^{\top }} +\mathbf {CAXB}$
n es un número entero positivo	^[4] ${\frac {\partial \operatorname {tr} \left(\mathbf {X} ^{n}\right)}{\partial \mathbf {X} }}=$	$n\mathbf {X} ^{n-1}$	$n\left(\mathbf {X} ^{n-1}\right)^{\top }$
A no es función de X, n es un número entero positivo	^[4] ${\frac {\partial \operatorname {tr} \left(\mathbf {A} \mathbf {X} ^{n}\right)}{\partial \mathbf {X} }}=$	$\sum _{i=0}^{n-1}\mathbf {X} ^{i}\mathbf {A} \mathbf {X} ^{n-i-1}$	$\sum _{i=0}^{n-1}\left(\mathbf {X} ^{i}\mathbf {A} \mathbf {X} ^{n-i-1}\right)^{\top }$
	^[4] ${\frac {\partial \operatorname {tr} \left(e^{\mathbf {X} }\right)}{\partial \mathbf {X} }}=$	$e^{\mathbf {X} }$	$\left(e^{\mathbf {X} }\right)^{\top }$
	^[4] ${\frac {\partial \operatorname {tr} (\sin(\mathbf {X} ))}{\partial \mathbf {X} }}=$	$\cos(\mathbf {X} )$	$(\cos(\mathbf {X} ))^{\top }$
	^[7] ${\frac {\partial \|\mathbf {X} \|}{\partial \mathbf {X} }}=$	$\operatorname {cofactor} (X)^{\top }=\|\mathbf {X} \|\mathbf {X} ^{-1}$	$\operatorname {cofactor} (X)=\|\mathbf {X} \|\left(\mathbf {X} ^{-1}\right)^{\top }$
a no es una función de X	^[4] ${\frac {\partial \ln \|a\mathbf {X} \|}{\partial \mathbf {X} }}=$ ^[8]	$\mathbf {X} ^{-1}$	$\left(\mathbf {X} ^{-1}\right)^{\top }$
A, B no son funciones de X	^[4] ${\frac {\partial \|\mathbf {AXB} \|}{\partial \mathbf {X} }}=$	$\|\mathbf {AXB} \|\mathbf {X} ^{-1}$	$\|\mathbf {AXB} \|\left(\mathbf {X} ^{-1}\right)^{\top }$
n es un número entero positivo	^[4] ${\frac {\partial \left\|\mathbf {X} ^{n}\right\|}{\partial \mathbf {X} }}=$	$n\left\|\mathbf {X} ^{n}\right\|\mathbf {X} ^{-1}$	$n\left\|\mathbf {X} ^{n}\right\|\left(\mathbf {X} ^{-1}\right)^{\top }$
(véase pseudo-inverso)	^[4] ${\frac {\partial \ln \left\|\mathbf {X} ^{\top }\mathbf {X} \right\|}{\partial \mathbf {X} }}=$	$2\mathbf {X} ^{+}$	$2\left(\mathbf {X} ^{+}\right)^{\top }$
(véase pseudo-inverso)	^[4] ${\frac {\partial \ln \left\|\mathbf {X} ^{\top }\mathbf {X} \right\|}{\partial \mathbf {X} ^{+}}}=$	$-2\mathbf {X}$	$-2\mathbf {X} ^{\top }$
A no es una función de X, X es cuadrado e invertible	${\frac {\partial \left\|\mathbf {X^{\top }} \mathbf {A} \mathbf {X} \right\|}{\partial \mathbf {X} }}=$	$2\left\|\mathbf {X^{\top }} \mathbf {A} \mathbf {X} \right\|\mathbf {X} ^{-1}=2\left\|\mathbf {X^{\top }} \right\|\|\mathbf {A} \|\|\mathbf {X} \|\mathbf {X} ^{-1}$	$2\left\|\mathbf {X^{\top }} \mathbf {A} \mathbf {X} \right\|\left(\mathbf {X} ^{-1}\right)^{\top }$
A no es una función de X, X no es cuadrado, A es simétrico	${\frac {\partial \left\|\mathbf {X^{\top }} \mathbf {A} \mathbf {X} \right\|}{\partial \mathbf {X} }}=$	$2\left\|\mathbf {X^{\top }} \mathbf {A} \mathbf {X} \right\|\left(\mathbf {X^{\top }A^{\top }X} \right)^{-1}\mathbf {X^{\top }A^{\top }}$	$2\left\|\mathbf {X^{\top }} \mathbf {A} \mathbf {X} \right\|\mathbf {AX} \left(\mathbf {X^{\top }AX} \right)^{-1}$
A no es función de X, X no es cuadrado, A no es simétrico	${\frac {\partial \|\mathbf {X^{\top }} \mathbf {A} \mathbf {X} \|}{\partial \mathbf {X} }}=$	${\begin{aligned}\left\|\mathbf {X^{\top }} \mathbf {A} \mathbf {X} \right\|{\Big (}&\left(\mathbf {X^{\top }AX} \right)^{-1}\mathbf {X^{\top }A} +{}\\&\left(\mathbf {X^{\top }A^{\top }X} \right)^{-1}\mathbf {X^{\top }A^{\top }} {\Big )}\end{aligned}}$	${\begin{aligned}\left\|\mathbf {X^{\top }} \mathbf {A} \mathbf {X} \right\|{\Big (}&\mathbf {AX} \left(\mathbf {X^{\top }AX} \right)^{-1}+{}\\&\mathbf {A^{\top }X} \left(\mathbf {X^{\top }A^{\top }X} \right)^{-1}{\Big )}\end{aligned}}$

Identidades matriz-por-escala

Identidades: matriz-por-escala ${\frac {\partial \mathbf {Y} }{\partial x}}$
Condición	Expresión	Disposición de numerador, es decir, por Y
U = U(x)	${\frac {\partial a\mathbf {U} }{\partial x}}=$	$a{\frac {\partial \mathbf {U} }{\partial x}}$
A, B no son funciones de x, U = U(x)	${\frac {\partial \mathbf {AUB} }{\partial x}}=$	$\mathbf {A} {\frac {\partial \mathbf {U} }{\partial x}}\mathbf {B}$
U = U(x), V = V(x)	${\frac {\partial (\mathbf {U} +\mathbf {V} )}{\partial x}}=$	${\frac {\partial \mathbf {U} }{\partial x}}+{\frac {\partial \mathbf {V} }{\partial x}}$
U = U(x), V = V(x)	${\frac {\partial (\mathbf {U} \mathbf {V} )}{\partial x}}=$	$\mathbf {U} {\frac {\partial \mathbf {V} }{\partial x}}+{\frac {\partial \mathbf {U} }{\partial x}}\mathbf {V}$
U = U(x), V = V(x)	${\frac {\partial (\mathbf {U} \otimes \mathbf {V} )}{\partial x}}=$	$\mathbf {U} \otimes {\frac {\partial \mathbf {V} }{\partial x}}+{\frac {\partial \mathbf {U} }{\partial x}}\otimes \mathbf {V}$
U = U(x), V = V(x)	${\frac {\partial (\mathbf {U} \circ \mathbf {V} )}{\partial x}}=$	$\mathbf {U} \circ {\frac {\partial \mathbf {V} }{\partial x}}+{\frac {\partial \mathbf {U} }{\partial x}}\circ \mathbf {V}$
U = U(x)	${\frac {\partial \mathbf {U} ^{-1}}{\partial x}}=$	$-\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial x}}\mathbf {U} ^{-1}$
U = U(x,y)	${\frac {\partial ^{2}\mathbf {U} ^{-1}}{\partial x\partial y}}=$	$\mathbf {U} ^{-1}\left({\frac {\partial \mathbf {U} }{\partial x}}\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial y}}-{\frac {\partial ^{2}\mathbf {U} }{\partial x\partial y}}+{\frac {\partial \mathbf {U} }{\partial y}}\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial x}}\right)\mathbf {U} ^{-1}$
A no es una función de x, g(X) es cualquier polinomio con coeficientes escalares, o cualquier función de matriz definida por una serie polinómica infinita (e.g. e^X, sin(X), cos(X), ln(X), entre otros); g(x) es una función escalar equivalente, g′(x) es su derivado y g′(X) es la función matricial correspondiente	${\frac {\partial \,\mathbf {g} (x\mathbf {A} )}{\partial x}}=$	$\mathbf {A} \mathbf {g} '(x\mathbf {A} )=\mathbf {g} '(x\mathbf {A} )\mathbf {A}$
A no es una función de x	${\frac {\partial e^{x\mathbf {A} }}{\partial x}}=$	$\mathbf {A} e^{x\mathbf {A} }=e^{x\mathbf {A} }\mathbf {A}$

Véase también Derivada de la aplicación exponencial.

Identidades escalar-por-escalar

Con vectores implicados

Identidades: escalar-por-escalar, con vectores implicados
Condición	Expresión	Cualquier disposición (se supone que el producto punto ignora la disposición de filas frente a columnas)
u = u(x)	${\frac {\partial g(\mathbf {u} )}{\partial x}}=$	${\frac {\partial g(\mathbf {u} )}{\partial \mathbf {u} }}\cdot {\frac {\partial \mathbf {u} }{\partial x}}$
u = u(x), v = v(x)	${\frac {\partial (\mathbf {u} \cdot \mathbf {v} )}{\partial x}}=$	$\mathbf {u} \cdot {\frac {\partial \mathbf {v} }{\partial x}}+{\frac {\partial \mathbf {u} }{\partial x}}\cdot \mathbf {v}$

Con matrices implicadas

Identidades: escalar-por-escalar, con matrices implicadas^[4]
Condición	Expresión	Disposición coherente del numerador, es decir, por Y y X^T	Disposición mixta, es decir, por Y y X
U = U(x)	${\frac {\partial \|\mathbf {U} \|}{\partial x}}=$	$\|\mathbf {U} \|\operatorname {tr} \left(\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial x}}\right)$
U = U(x)	${\frac {\partial \ln \|\mathbf {U} \|}{\partial x}}=$	$\operatorname {tr} \left(\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial x}}\right)$
U = U(x)	${\frac {\partial ^{2}\|\mathbf {U} \|}{\partial x^{2}}}=$	$\|\mathbf {U} \|\left[\operatorname {tr} \left(\mathbf {U} ^{-1}{\frac {\partial ^{2}\mathbf {U} }{\partial x^{2}}}\right)+\operatorname {tr} ^{2}\left(\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial x}}\right)-\operatorname {tr} \left(\left(\mathbf {U} ^{-1}{\frac {\partial \mathbf {U} }{\partial x}}\right)^{2}\right)\right]$
U = U(x)	${\frac {\partial g(\mathbf {U} )}{\partial x}}=$	$\operatorname {tr} \left({\frac {\partial g(\mathbf {U} )}{\partial \mathbf {U} }}{\frac {\partial \mathbf {U} }{\partial x}}\right)$	$\operatorname {tr} \left(\left({\frac {\partial g(\mathbf {U} )}{\partial \mathbf {U} }}\right)^{\top }{\frac {\partial \mathbf {U} }{\partial x}}\right)$
A no es una función de x, g(X) es cualquier polinomio con coeficientes escalares, o cualquier función matricial definida por una serie polinómica infinita (es decir, e^X, sin(X), cos(X), ln(X), entre otras); g(x) es la función escalar equivalente, g′(x) es su derivado, y g′(X) es la función matricial correspondiente.	${\frac {\partial \operatorname {tr} (\mathbf {g} (x\mathbf {A} ))}{\partial x}}=$	$\operatorname {tr} \left(\mathbf {A} \mathbf {g} '(x\mathbf {A} )\right)$
A no es una función de x	${\frac {\partial \operatorname {tr} \left(e^{x\mathbf {A} }\right)}{\partial x}}=$	$\operatorname {tr} \left(\mathbf {A} e^{x\mathbf {A} }\right)$

Identidades en forma diferencial

A menudo es más fácil trabajar en forma diferencial y luego volver a convertir a derivadas normales. Esto sólo funciona bien utilizando la disposición del numerador. En estas reglas, "a" es un escalar.

Identidades diferenciales: escalar que implican matrices^[1]^[4]
Condición	Expresión	Resultado (disposición del numerador)
	$d(\operatorname {tr} (\mathbf {X} ))=$	$\operatorname {tr} (d\mathbf {X} )$
	$d(\|\mathbf {X} \|)=$	$\|\mathbf {X} \|\operatorname {tr} \left(\mathbf {X} ^{-1}d\mathbf {X} \right)=\operatorname {tr} (\operatorname {adj} (\mathbf {X} )d\mathbf {X} )$
	$d(\ln \|\mathbf {X} \|)=$	$\operatorname {tr} \left(\mathbf {X} ^{-1}d\mathbf {X} \right)$

Identidades diferenciales: matriz^[1]^[4]^[9]^[10]
Condición	Expresión	Resultado (disposición del numerador)
A no es una función de X	$d(\mathbf {A} )=$	$0$
a no es una función de X	$d(a\mathbf {X} )=$	$a\,d\mathbf {X}$
	$d(\mathbf {X} +\mathbf {Y} )=$	$d\mathbf {X} +d\mathbf {Y}$
	$d(\mathbf {X} \mathbf {Y} )=$	$(d\mathbf {X} )\mathbf {Y} +\mathbf {X} (d\mathbf {Y} )$
(producto de Kronecker)	$d(\mathbf {X} \otimes \mathbf {Y} )=$	$(d\mathbf {X} )\otimes \mathbf {Y} +\mathbf {X} \otimes (d\mathbf {Y} )$
(producto de Hadamard)	$d(\mathbf {X} \circ \mathbf {Y} )=$	$(d\mathbf {X} )\circ \mathbf {Y} +\mathbf {X} \circ (d\mathbf {Y} )$
	$d\left(\mathbf {X} ^{\top }\right)=$	$(d\mathbf {X} )^{\top }$
	$d\left(\mathbf {X} ^{-1}\right)=$	$-\mathbf {X} ^{-1}\left(d\mathbf {X} \right)\mathbf {X} ^{-1}$
(matriz traspuesta conjugada)	$d\left(\mathbf {X} ^{\rm {H}}\right)=$	$(d\mathbf {X} )^{\rm {H}}$
n es un número entero positivo	$d\left(\mathbf {X} ^{n}\right)=$	$\sum _{i=0}^{n-1}\mathbf {X} ^{i}(d\mathbf {X} )\mathbf {X} ^{n-i-1}$
	$d\left(e^{\mathbf {X} }\right)=$	$\int _{0}^{1}e^{a\mathbf {X} }(d\mathbf {X} )e^{(1-a)\mathbf {X} }\,da$
	$d\left(\log {X}\right)=$	$\int _{0}^{\infty }(\mathbf {X} +z\,\mathbf {I} )^{-1}(d\mathbf {X} )(\mathbf {X} +z\,\mathbf {I} )^{-1}\,dz$
$\mathbf {X} =\sum _{i}\lambda _{i}\mathbf {P} _{i}$ es diagonalizable $\mathbf {P} _{i}\mathbf {P} _{j}=\delta _{ij}\mathbf {P} _{i}$ f es diferenciable en todo valor propio $\lambda _{i}$	$d\left(f(\mathbf {X} )\right)=$	$\sum _{ij}\mathbf {P} _{i}(d\mathbf {X} )\mathbf {P} _{j}{\begin{cases}f'(\lambda _{i})&\lambda _{i}=\lambda _{j}\\{\frac {f(\lambda _{i})-f(\lambda _{j})}{\lambda _{i}-\lambda _{j}}}&\lambda _{i}\neq \lambda _{j}\end{cases}}$

En la última fila, $\delta _{ij}$ es el delta de Kronecker y $(\mathbf {P} _{k})_{ij}=(\mathbf {Q} )_{ik}(\mathbf {Q} ^{-1})_{kj}$ es el conjunto de operadores de proyección ortogonales que se proyectan sobre el k-ésimo vector propio de X. Q es la matriz de vectores propios de $\mathbf {X} =\mathbf {Q} \mathbf {\Lambda } \mathbf {Q} ^{-1}$ , y $(\mathbf {\Lambda } )_{ii}=\lambda _{i}$ son los valores propios. La función matricial $f(\mathbf {X} )$ se define en términos de la función escalar $f(x)$ para matrices diagonalizables mediante $f(\mathbf {X} )=\sum _{i}f(\lambda _{i})\mathbf {P} _{i}$ donde $\mathbf {X} =\sum _{i}\lambda _{i}\mathbf {P} _{i}$ con $\mathbf {P} _{i}\mathbf {P} _{j}=\delta _{ij}\mathbf {P} _{i}$ .

Para convertir a la forma derivada normal, primero se convierte a una de las siguientes formas canónicas, y luego se utilizan estas identidades:

Conversión de la forma diferencial a la forma derivada^[1]
Forma diferencial canónica	Forma derivada equivalente (disposición del numerador)
$dy=a\,dx$	${\frac {dy}{dx}}=a$
$dy=\mathbf {a} ^{\top }d\mathbf {x}$	${\frac {dy}{d\mathbf {x} }}=\mathbf {a} ^{\top }$
$dy=\operatorname {tr} (\mathbf {A} \,d\mathbf {X} )$	${\frac {dy}{d\mathbf {X} }}=\mathbf {A}$
$d\mathbf {y} =\mathbf {a} \,dx$	${\frac {d\mathbf {y} }{dx}}=\mathbf {a}$
$d\mathbf {y} =\mathbf {A} \,d\mathbf {x}$	${\frac {d\mathbf {y} }{d\mathbf {x} }}=\mathbf {A}$
$d\mathbf {Y} =\mathbf {A} \,dx$	${\frac {d\mathbf {Y} }{dx}}=\mathbf {A}$

Aplicaciones

El cálculo diferencial matricial se utiliza en estadística y econometría, en particular para el análisis estadístico de distribuciones multivariantes, especialmente la distribución normal multivariada y otras distribuciones elípticas.^[11]^[12]^[13]

Se utiliza en el análisis de regresión para calcular, por ejemplo, la fórmula de regresión por mínimos cuadrados ordinarios para el caso de múltiples variables explicativas.^[14] También se utiliza en sensibilidad local y diagnóstico estadístico.^[15]

Véase también

Portal:Matemáticas. Contenido relacionado con Matemáticas.

Integral multiplicativa

Referencias

↑ ^a ^b ^c ^d ^e Thomas P., Minka, MIT Media Lab note (1997; revisado 12/00) (28 de diciembre de 2000). «Old and New Matrix Algebra Useful for Statistics» (en inglés). Consultado el 5 de febrero de 2016.
↑ Felippa, Carlos A. «Appendix D, Linear Algebra: Determinants, Inverses, Rank». ASEN 5007: Introduction To Finite Element Methods (en inglés). Boulder, Colorado: University of Colorado. Consultado el 5 de febrero de 2016. Utiliza la definición hessiana (transpuesta a la jacobiana) de las derivadas vectoriales y matriciales.
↑ ^a ^b ^c Aquí, $\mathbf {0}$ se refiere al vector columna de los 0, de tamaño n, donde n es la longitud de x.
↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^ñ ^o ^p Petersen, Kaare Brandt; Pedersen, Michael Syskind. The Matrix Cookbook (en inglés). Archivado desde el original el 2 de marzo de 2010. Consultado el 5 de febrero de 2016. Este libro usa una disposición mixta, es decir, por Y en ${\frac {\partial \mathbf {Y} }{\partial x}},$ por X en ${\frac {\partial y}{\partial \mathbf {X} }}.$
↑ ^a ^b Aquí, $\mathbf {0}$ se refiere a la matriz de todos los 0, de la misma forma que X.
↑ Duchi, John C. «Properties of the Trace and Matrix Derivatives» (en inglés). Stanford University. Consultado el 5 de febrero de 2016.
↑ Véase Determinante para la derivación.
↑ The constant a disappears in the result. This is intentional. In general,
${\frac {d\ln au}{dx}}={\frac {1}{au}}{\frac {d(au)}{dx}}={\frac {1}{au}}a{\frac {du}{dx}}={\frac {1}{u}}{\frac {du}{dx}}={\frac {d\ln u}{dx}}.$
or, also
${\frac {d\ln au}{dx}}={\frac {d(\ln a+\ln u)}{dx}}={\frac {d\ln a}{dx}}+{\frac {d\ln u}{dx}}={\frac {d\ln u}{dx}}.$
↑ Giles, Michael B. (2008). An extended collection of matrix derivative results for forward and reverse mode algorithmic differentiation (en inglés). Archivado desde el original el 27 de febrero de 2020.
↑ Nota inédita (en inglés) por S Adler (IAS)
↑ Fang y Zhang (1990)
↑ Pan y Fang (2007)
↑ Kollo y von Rosen (2005)
↑ Magnus y Neudecker (2019)
↑ Liu y et al. (2022)

Bibliografía

Fang, Kai-Tai; Zhang, Yao-Ting (1990). Generalized multivariate analysis (en inglés). Science Press (Beijing) and Springer-Verlag (Berlin). ISBN 3540176519.
Kollo, Tõnu; von Rosen, Dietrich (2005). Advanced multivariate statistics with matrices (en inglés). Dordrecht: Springer. ISBN 978-1-4020-3418-3.
Pan, Jianxin; Fang, Kaitai (2007). Growth curve models and statistical diagnostics. Beijing: Science Press. p. en. ISBN 9780387950532.
Magnus, Jan; Neudecker, Heinz (2019). Matrix differential calculus with applications in statistics and econometrics (en inglés). New York: John Wiley. ISBN 9781119541202.
Liu, Shuangzhe; Leiva, Victor; Zhuang, Dan; Ma, Tiefeng; Figueroa-Zúñiga, Jorge I. (2022). Matrix differential calculus with applications in the multivariate linear model and its diagnostics (en inglés) 188. Journal of Multivariate Analysis. p. 104849. doi:10.1016/j.jmva.2021.104849.

Lectura adicional

Abadir, Karim M., 1964-, Magnus, Jan R. (2005). Matrix algebra (en inglés). Cambridge: Cambridge University Press. ISBN 978-0-511-64796-3. OCLC 569411497.
Lax, Peter D. (2007). «9. Calculus of Vector- and Matrix-Valued Functions». Linear algebra and its applications (en inglés) (2 edición). Hoboken, N.J.: Wiley-Interscience. ISBN 978-0-471-75156-4.
Magnus, Jan R. (2010). «On the concept of matrix derivative». Journal of Multivariate Analysis (en inglés) 101 (9): 2200-2206. doi:10.1016/j.jmva.2010.05.005.

Enlaces externos

Software

MatrixCalculus.org, un sitio web para evaluar expresiones de cálculo matricial simbólicamente
NCAlgebra, un paquete de Mathematica de código abierto que tiene algunas funcionalidades de cálculo matricial
SymPy admite derivadas matriciales simbólicas en su módulo de expresión matricial, así como derivadas tensoriales simbólicas en su módulo de expresión de matrices.

Información

«Matrix Reference Manual». Archivado desde el original el 30 de junio de 2012. Consultado el 3 de agosto de 2023. (en inglés), Mike Brookes, Imperial College London
«Matrix Differentiation (and some other stuff)». (en inglés), Randal J. Barnes, Departamento de Ingeniería Civil, Universidad de Minnesota
«Notes on Matrix Calculus». (en inglés), Paul L. Fackler, North Carolina State University.
Matrix Differential Calculus Archivado el 16 de septiembre de 2012 en Wayback Machine. (presentación en diapositivas, en inglés), Zhang Le, University of Edinburgh.
«Introduction to Vector and Matrix Differentiation». Archivado desde el original el 26 de mayo de 2012. Consultado el 3 de agosto de 2023. (en inglés, notas sobre diferenciación matricial, en el contexto de econometría), Heino Bohn Nielsen
«A note on differentiating matrices». (en inglés, notas sobre diferenciación matricial), Pawel Koval, del Munich Personal RePEc Archive.
«Vector/Matrix Calculus». (en inglés, más notas sobre diferenciación de matriz)
«Matrix identities». (notas sobre la diferenciación de matrices, en inglés), Sam Roweis

Datos: Q29167

[:0-1] Thomas P., Minka, MIT Media Lab note (1997; revisado 12/00) (28 de diciembre de 2000). «Old and New Matrix Algebra Useful for Statistics» (en inglés). Consultado el 5 de febrero de 2016.

[2] Felippa, Carlos A. «Appendix D, Linear Algebra: Determinants, Inverses, Rank». ASEN 5007: Introduction To Finite Element Methods (en inglés). Boulder, Colorado: University of Colorado. Consultado el 5 de febrero de 2016. Utiliza la definición hessiana (transpuesta a la jacobiana) de las derivadas vectoriales y matriciales.

[:1-3] Aquí, $\mathbf {0}$ se refiere al vector columna de los 0, de tamaño n, donde n es la longitud de x.

[matrix-cookbook-4] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^ñ ^o ^p Petersen, Kaare Brandt; Pedersen, Michael Syskind. The Matrix Cookbook (en inglés). Archivado desde el original el 2 de marzo de 2010. Consultado el 5 de febrero de 2016. Este libro usa una disposición mixta, es decir, por Y en ${\frac {\partial \mathbf {Y} }{\partial x}},$ por X en ${\frac {\partial y}{\partial \mathbf {X} }}.$

[:2-5] Aquí, $\mathbf {0}$ se refiere a la matriz de todos los 0, de la misma forma que X.

[6] Duchi, John C. «Properties of the Trace and Matrix Derivatives» (en inglés). Stanford University. Consultado el 5 de febrero de 2016.

[7] Véase Determinante para la derivación.

[8] The constant a disappears in the result. This is intentional. In general,
${\frac {d\ln au}{dx}}={\frac {1}{au}}{\frac {d(au)}{dx}}={\frac {1}{au}}a{\frac {du}{dx}}={\frac {1}{u}}{\frac {du}{dx}}={\frac {d\ln u}{dx}}.$
or, also
${\frac {d\ln au}{dx}}={\frac {d(\ln a+\ln u)}{dx}}={\frac {d\ln a}{dx}}+{\frac {d\ln u}{dx}}={\frac {d\ln u}{dx}}.$

[9] Giles, Michael B. (2008). An extended collection of matrix derivative results for forward and reverse mode algorithmic differentiation (en inglés). Archivado desde el original el 27 de febrero de 2020.

[10] Nota inédita (en inglés) por S Adler (IAS)

[11] Fang y Zhang (1990)

[12] Pan y Fang (2007)

[13] Kollo y von Rosen (2005)

[14] Magnus y Neudecker (2019)

[15] Liu y et al. (2022)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]