El lado oscuro de la econometría. Walter Sosa Escudero
(hacer las cosas de la mejor manera posible) es una tarea abstracta que fuerza al analista a pensar no solo cómo son las cosas, sino cómo podrían haber sido, y la teoría econométrica provee una forma ordenada de pensar en estas cuestiones. Mi objetivo, entonces, es que los alumnos desarrollen un espíritu crítico que les permita entender que, dependiendo del contexto, las herramientas econométricas pueden andar bien, mal, más o menos o espantosamente. En este marco es que este capítulo intenta dudar de todo, aun de cosas muy básicas y atávicas como el teorema de Gauss Markov. Pero espero que entiendan que es parte de una estrategia docente, como la del profesor de tenis que te devuelve la pelota a tu lado flojo (como digo más adelante), y que juego cuando a mis alumnos les agarra el ataque de dogmatismo, como cuando mi compañero decía, inocentemente, que “todo es GMM”. Ahí vamos.
MULTICOLINEALIDAD, MICRONUMEROSIDAD Y MACROESTUPIDEZ
Judge le dedica un largo capítulo. Wooldridge, solo algunas páginas. Johnston y Di Nardo solo mencionan el problema en una nota marginal al pie. ¿Es realmente un problema la multicolinealidad?
A los olvidadizos les recuerdo que la multicolinealidad se refiere a una situación en la cual en un modelo econométrico una de las variables explicativas se puede obtener como una combinación lineal y exacta de las otras. Por ejemplo, si en un modelo de consumo las variables explicativas fuesen el ingreso medido en pesos y el ingreso en dólares, claramente esto implica una violación al supuesto de “no multicolinealidad”, ya que la segunda variable es simplemente el ingreso en pesos multiplicado por un número. Menos trivialmente, también violaríamos este supuesto si en un modelo de rentabilidad de empresas incluyésemos como variables explicativas el activo, el pasivo y el patrimonio neto, toda vez que, desde Fray Luca Pacioli, el primero es igual a la suma de los otros dos. Intuitivamente, el supuesto de no multicolinealidad implica que uno no debe incluir variables irrelevantes. Por ejemplo, está clarísimo que, si incluimos el ingreso en pesos y en dólares, resultará imposible alterar el primero y dejar el otro quieto, ya que uno es esencialmente el otro. En algún lenguaje moderno, el supuesto de no multicolinealidad es “el” supuesto de identificación del modelo lineal.
Agrega a la confusión un problema que podría resolverse semánticamente. En el contexto antes explicado, la multicolinealidad es como el embarazo: hay o no hay multicolinealidad, sin ninguna alternativa intermedia, más o menos en el mismo sentido en el que una chica no puede estar “un poquito embarazada”, lo está o no. Cuando hay multicolinealidad, en la jerga se dice que hay “multicolinealidad exacta”, lo cual implica una violación flagrante a los supuestos clásicos del modelo lineal. Las consecuencias son gravísimas, al punto tal que es posible mostrar que los parámetros del modelo no están identificados y que el estimador de mínimos cuadrados ni siquiera existe. Es el fin del mundo econométrico. A los ojos de muchos (posiblemente, de los autores que le dedican un espacio ínfimo al tema), se trata de un supuesto tan fundamental y de consecuencias tan severas que ni siquiera tiene mucho sentido discutir sus violaciones.
Ahora, en la práctica mucha gente habla de “multicolinealidad alta”, terminología que hace referencia a una situación en donde la correlación entre las variables explicativas, si bien no es exacta, es “alta”. Es algo así como la versión econométrica de estar un poquito embarazada.
La confusión viene del hecho de que los practicantes de la econometría mezclan la multicolinealidad en sí misma (correlaciones entre variables explicativas) con sus consecuencias (varianza alta). Confunde al recién llegado a la disciplina el hecho de que la multicolinealidad alta (no exacta) no viola ningún supuesto del teorema de Gauss Markov (TGM), de modo que el estimador de MCO sigue siendo el de varianza mínima en la clase de estimadores insesgados. La postura de quienes ignoran el tema tiene que ver con que, si no hemos violado ningún supuesto, nada hay por hacer. Como dicen los norteamericanos, no hay que arreglar lo que no se ha roto.
Y aquí viene la trampa: el TGM jamás dice que la varianza del estimador mínimo cuadrático es alta o baja, tan solo que es mínima, lo cual no implica ninguna contradicción, más o menos en el mismo sentido en el que el mejor plato de un restaurante pésimo no tiene por qué ser bueno. La multicolinealidad plantea una situación en donde puede ser que el estimador de MCO sea óptimo y así todo sea una porquería. Esto explica por qué varios libros implícitamente sostienen la postura de que “si no levantamos ningún supuesto, el TGM funciona, y ergo, no hay que hacer nada, salvo joderse”. Desde esta perspectiva, la multicolinealidad alta es una característica del modelo, como el pelo rubio o castaño de las personas, y la mala o buena performance del método de mínimos cuadrados es una consecuencia de esto y deja inalterado que sea, en su contexto, el mejor.
Resolver el “problema de multicolinealidad” agregando observaciones (como muchos plantean) es como meter al niño en un freezer para que le baje la fiebre. Es actuar sobre las manifestaciones del problema (varianza elevada), además de llevar a preguntarse (de ser factible esta vía) por qué cuernos uno tenía acceso a información adicional y no la usaba antes, situación que se dirime con terapia o pastillas, y no con un texto de econometría.
En un ingenioso tratamiento (un capítulo de su notable libro A Course in Econometrics), Arthur Goldberger dice que, si a uno le preocupa la multicolinealidad, debería preocuparle del mismo modo el problema de tener pocos datos, ya que ambas cuestiones se manifiestan exactamente de la misma forma: aumentan la varianza del estimador. Mofándose de la profesión, Goldberger argumenta que el problema de “n chico” ha sido olvidado por no haber recibido una denominación pretenciosa y sofisticada como su problema hermano (multicolinealidad), de modo que, magistralmente, sugiere atacar esta cuestión semánticamente, y propone el ampuloso vocablo “micronumerosidad” para referirse a esta cuestión. He aquí a Goldberger en uno de sus muchos raptos de lucidez, y con un humor inusitado en nuestra profesión (traducción mía, del original de Goldberger):
3. Tests de micronumerosidad
Los test de micronumerosidad requieren un uso sensato de varios dedos. Algunos investigadores prefieren uno solo, otros usan los de los pies, y algunos también usan los pulgares. Una regla confiable consiste en contar el número de observaciones. En la mayoría de las situaciones prácticas en econometría, cuando n está cerca de cero, también está lejos de infinito. Existen algunos métodos que proponen valores críticos n*, de modo que la micronumerosidad es un problema solo si n es menor que n*, pero estos procedimientos son cuestionables.
Y he aquí mi contribución a la causa. Como todos sabemos, una tercera fuente de varianza alta es el tamaño de la varianza del error, o sea, la medida de nuestra ignorancia, aquello que fue relegado, justamente o no, a esta bolsa de gatos que denominamos “término de error”, y que ahora está de moda llamar “heterogeneidad no observable”. Su varianza, entonces, es algo así como la medida de nuestra impericia, aquello que nuestro conocimiento no puede o quiere meter en el modelo. Entonces, una forma de compensar la multicolinealidad es atacar lo que en el espíritu semántico de Goldberger denominaremos “macroestupidez”, medida apropiadamente por la varianza (o el desvío estándar) del término aleatorio, estimable mediante el uso de herramientas computacionales de amplia disponibilidad. Es fácil derivar algunos corolarios simples, por ejemplo: si la macroestupidez es cero, el problema de micronumerosidad solo requiere (bajo algunas condiciones simples) tantas observaciones como parámetros a estimar, y no más.
Termino con una anécdota. Hice mi primera presentación como econometrista en la Universidad de Wisconsin, en Madison, allá por el 1996, más o menos, en el congreso del Midwest Econometrics Group. Anil Bera, mi director de tesis, me “engañó” diciéndome que él iba a presentar nuestro paper (con Mann Yoon) y una semana antes me dijo que yo lo debía hacer, favor por el cual en su momento lo quise matar, pero que, retrospectivamente, le agradeceré de por vida. Pasé una semana sin dormir preparando puntillosamente mis slides. El día de mi presentación el auditorio estaba lleno, con Jeffrey Wooldridge y el temible Chuck Manski en primera fila. Antes de mi presentación, en el coffee break, se me acerca un viejito canoso, con remera negra, jeans y zapatillas All Star, y muy simpáticamente me extiende su mano y me dice: “Hola, soy Art Goldberger”. Y a mí se me vino el