¿Por qué medimos la "inteligencia" de la IA por su dominio del lenguaje?

En el debate sobre inteligencia artificial, hay un fenómeno curioso: solemos evaluar la "inteligencia" de la IA basándonos en su capacidad para entender y generar lenguaje, más que en su habilidad para razonar. Esto no es casualidad.
El lenguaje ha sido históricamente uno de los atributos más complejos y distintivos de la inteligencia humana. Es la habilidad con la que estructuramos ideas, resolvemos problemas y creamos conocimiento. Por eso, cuando una IA genera respuestas coherentes o escribe textos aparentemente creativos, solemos percibirla como inteligente.
Sin embargo, las IA actuales, incluidas las basadas en modelos de lenguaje como GPT, no razonan de la misma manera que los humanos. Lo que hacen es identificar patrones estadísticos en grandes cantidades de datos, generando resultados probabilísticos basados en contexto. No existe una comprensión real, intencionalidad o razonamiento lógico intrínseco (por ahora a pesar de que GPT o1 ha dado los primeros pasos en este campo).
Ejemplos que lo demuestran
Resolución de acertijos lógicos complejos (El dilema de los dos guardias): Un acertijo clásico que pone a prueba el razonamiento lógico es el acertijo de los dos guardias, en el que un prisionero se enfrenta a dos guardias. Uno de ellos siempre dice la verdad y el otro siempre miente. El prisionero debe elegir entre dos puertas: una lo lleva a la libertad y la otra a una trampa mortal. El prisionero puede hacer una sola pregunta a uno de los guardias para determinar cuál puerta elegir.
La solución es bastante sencilla: el prisionero debe preguntar a cualquiera de los guardias: "Si le pregunto al otro guardia cuál puerta lleva a la libertad, ¿qué puerta me señalaría?". Ambos guardias señalarían la puerta equivocada, y el prisionero debería elegir la puerta opuesta.
Sin embargo, si se le presenta este tipo de acertijo a una IA, puede generar una respuesta basada en patrones previos que ha aprendido, pero no está razonando como un ser humano lo haría. La IA puede identificar las relaciones entre los guardias y las puertas a partir de ejemplos previos, pero no puede aplicar el razonamiento profundo que se necesita para comprender la estrategia detrás de la pregunta. La IA está generando una respuesta basada en probabilidades, sin un entendimiento genuino del contexto o de la lógica detrás de la pregunta.
Paradojas lógicas (La paradoja de Epimenides): Una de las paradojas más famosas y complejas es la paradoja de Epimenides, que se presenta como una simple afirmación: "Todos los cretenses son mentirosos", dicha por un cretense, Epimenides. Esto genera una contradicción: si Epimenides es cretense y su afirmación es verdadera, entonces, como cretense, él mismo estaría mintiendo, lo que haría su declaración falsa. Pero si la declaración es falsa, entonces no todos los cretenses son mentirosos, lo que implica que Epimenides podría estar diciendo la verdad.
Si se presenta esta paradoja a una IA, puede generar una respuesta, como "Es una contradicción" o incluso intentar resolverla siguiendo los patrones de las respuestas que ha visto en el entrenamiento. Sin embargo, la IA no tiene la capacidad de comprender la naturaleza de la paradoja. Lo más probable es que la IA no pueda dar una resolución lógica coherente de la misma manera que un ser humano puede aplicar su comprensión intuitiva de la lógica para identificar que se trata de una paradoja autorreferencial.
La IA no está procesando activamente el concepto de contradicción lógica de forma autónoma; está generando una salida basada en las correlaciones de texto que ha aprendido. No comprende el concepto de auto-contradicción ni puede aplicar un marco lógico que resuelva la paradoja de manera correcta. Aunque puede detectar que algo está "mal" o "confuso", no tiene un proceso reflexivo que le permita desentrañar el verdadero problema detrás de la afirmación, como lo haría el razonamiento humano.
Razonamiento causal complejo: Las IA actuales, especialmente los modelos de lenguaje y los sistemas basados en aprendizaje automático, son excelentes para identificar correlaciones entre eventos o patrones en grandes volúmenes de datos. Sin embargo, no comprenden las relaciones causales profundas de manera que un ser humano lo haría.
Por ejemplo, si le preguntas a una IA por qué una persona lleva un paraguas, es probable que la IA responda "para protegerse de la lluvia", basándose en la correlación entre "paraguas" y "lluvia" que ha aprendido en su entrenamiento. Sin embargo, si la razón es diferente, como que la persona está protegiéndose del sol o tal vez porque necesita llevar el paraguas para alguna actividad específica que no involucra lluvia, la IA podría seguir el mismo patrón incorrecto, asumiendo que la causa siempre es la lluvia, sin tomar en cuenta el contexto adicional.
Esta limitación ocurre porque la IA no tiene conciencia del contexto implícito y no puede inferir intenciones de la misma manera que un humano lo haría. Un ser humano, al estar más familiarizado con el contexto social y cultural, podría fácilmente reconocer que las personas también pueden llevar paraguas cuando hay sol o en otras situaciones fuera de lo habitual.
¿Por qué esto es importante?
Aunque las IA son capaces de aprender patrones complejos, el razonamiento causal en situaciones no entrenadas o altamente contextualizadas sigue siendo una tarea que está más allá de su capacidad. Las IA no tienen un marco de entendimiento causal dinámico que les permita adaptar su razonamiento cuando los datos cambian de contexto o cuando se enfrenta a situaciones fuera de lo que ha visto previamente.
Esto plantea una cuestión importante: ¿Estamos midiendo la inteligencia de las máquinas con los parámetros correctos?
Hoy en día, el dominio del lenguaje se ha convertido en la "puerta de entrada" más visible para conectar con las capacidades de una IA. Sin embargo, si estas tecnologías avanzan hacia formas más complejas de razonamiento autónomo, autoorganización y adaptación a escenarios desconocidos, tal vez nuestra definición de inteligencia deba evolucionar.
¿Es el lenguaje la mejor métrica para evaluar la inteligencia de una máquina? ¿Qué otros parámetros deberíamos considerar?