Gienini Blog

La IA y los límites del lenguaje

Fecha: 12 de septiembre de 2022
This article was produced by and originally published in NOEMA Magazine
Por Jacob Browning y Yann Lecun 23 de agosto de 2022
traducido y adaptado por: gienini

Un sistema de IA entrenado solo en palabras y oraciones nunca se aproximará a la comprensión humana Blake Lemoine, ex-ingeniero de Google declaró que el chatbot de LaMDA - un modelo de IA de lenguaje grande o LLM – (Large Language Model) era una "persona" pues había expresado sentimientos originando un gran revuelo entre crédulos e incrédulos. Aparte puede estar el deseo de notoriedad de ese ingeniero o de la misma Google. En esa misma línea en 1845 Joseph Faber presentaba en la ciudad de Filadelfia su máquina parlante Euphonia.
Un chatbot como LaMDA está diseñado para predecir las palabras más probables a una sentencia u oración planteada y someramente construida. Ya que la mayor parte del tiempo hablamos en oraciones prestablecidas, las mismas conversaciones son muy predecibles. Estos chatbots infieren el desarrollo de las conversaciones de una manera muy verosímil.
LaMDA impresionó al ingeniero hasta el punto de preguntarse si había un fantasma en la máquina (quizás, tambien algo de publicidad).
Las reacciones a esta historia eran muy diversas: algunas personas se burlaron de la mera idea de que una máquina podría ser una persona. Otros sugirieron que este LLM no es una persona, pero el siguiente tal vez podría serlo. Otros señalaron que engañar a los hombres no es un logro extraordinario ("hombres" en el sentido del género humano, claro). Este comportamiento cada vez más "inteligente" de la programación lingüística reaviva constantemente el debate de si esos LLM en si seremos capaces de distinguir si esa destreza es algo programado o existe un fantasma.

"Quien quiera pensar en la singularidad de una IA tomando el control del universo, debería pensar antes en el programador" (fragmento de "Javier!" de J.M.Gienini)

La diversidad de respuestas y la continua mejora de estas LLM va elevando las expectativas y la "inteligencia" allí puestas va cuestionando las maneras de sobre cómo debemos entenderlas. Estas LLM van superando los puntos de referencia de razonamiento lingüístico de "sentido común" a lo largo de los años, esas referencias serían conquistables solo por una máquina que está "pensando" en el sentido que reservamos para las personas.
El "sentido común" no existe en estos ingenios y les vemos tan hábiles de llevar una conversación – en apariencia – inteligente tanto como de llegar a errores flagrantes.
Sin embargo, estos sistemas rara vez parecen tener el sentido común prometido cuando derrotan la prueba y, por lo general, siguen siendo propensos a enormes tonterías, del tipo "non sequiturs", donde ninguna premisa podría llevar por "sentido común" a un razonamiento o conclusiones erróneas de la manera en que los humanos caemos en las falacias y concluimos en consejos peligrosos. Esto lleva siempre a la pregunta: ¿cómo pueden estos sistemas ser tan inteligentes, pero también parecer tan limitados? La respuesta estará otra vez en el programador.
El problema subyacente no es la IA. El problema es la naturaleza limitada del lenguaje. Una vez que abandonamos las viejas suposiciones sobre la conexión entre el pensamiento y el lenguaje, está claro que estos sistemas están condenados a una comprensión superficial que nunca se aproximará a ese "pensamiento" que vemos en los humanos. En resumen, a pesar de estar entre los sistemas de IA más impresionantes del planeta, estos sistemas de IA nunca "pensarán".

Decirlo todo
Un tema dominante en la filosofía y ciencia de los siglos XIX y XX fue que el conocimiento simplemente es lingüístico, que saber algo simplemente significa pensar la oración correcta y comprender cómo se conecta con otras oraciones en una gran red de todas las "verdades" que conocemos. La forma ideal de lenguaje, por esta lógica, sería una puramente formal y lógico-matemática compuesta de símbolos arbitrarios conectados por estrictas reglas de inferencia y también el lenguaje natural podría servir si se hiciera el esfuerzo adicional para aclarar ambigüedades e imprecisiones. Como dijo Wittgenstein, "La totalidad de las proposiciones verdaderas es la totalidad de la ciencia natural". Esta posición se estableció así en el siglo XX cuando ciertos psicólogos trazaron unos – muy cuestionables – mapas cognitivos e imágenes mentales donde algunos argumentaron que a pesar de las apariencias, estos mapas eran lingüísticos, básicamente.
Un punto de vista todavía en boga y discutible en el que todo lo conocible puede estar contenido en una enciclopedia, por lo que simplemente leerla podría darnos el conocimiento del todo. También motivó gran parte del trabajo inicial en Symbolic AI, donde la manipulación de símbolos (símbolos arbitrarios que se unen de diferentes maneras de acuerdo con las reglas lógicas) era el paradigma. Para estos investigadores, el conocimiento de una IA consistía en una base de datos masiva de oraciones verdaderas (las "verdades") interconectadas lógicamente. Por lo que si un sistema de IA daba una oración coherente programando o hilando esos símbolos adecuadamente en el momento adecuado (o a ciertas preguntas) se deducía que era "inteligente". Esta noción es la que subyace a la prueba de Turing: si una máquina dice todo lo que se supone que debe decir, eso significa que sabe de lo que está hablando, ya que conocer las oraciones correctas y cuándo desplegarlas agota el conocimiento.
Esto llevó a una crítica fulminante que no cesa: solo porque una máquina pueda hablar de cualquier cosa, eso no significa que entienda de lo que está hablando. Recuerdo haber estudiado cientos de fechas de batallas, reinados, extinciones, revoluciones sin realmente darles sentido, sólo por el objetivo de pasar un examen. Esto se debe a que el lenguaje no “es” el conocimiento; por el contrario, es sólo una representación de un vehículo para transmitir ese conocimiento, algo muy específico y profundamente limitado. Cada lenguaje, ya sea un lenguaje de programación, una gramática simbólica o el mismo lenguaje hablado, son solo ese esquema específico de representaciones y expresan ese “conocimiento” de los objetos y puede llegar hasta la misma descripción de sus propiedades intrínsecas o subjetivas o las relaciones entre todas ellas al nivel que se desee de abstracción en la oración o el mensaje. El conocimiento de ese mensaje tiene sentido entre esos interlocutores, no en el lenguaje. Hay una gran diferencia entre saber leer una partitura musical y escuchar una grabación de esa música, saber imaginarla, saber tocarla o interpretar sus matices.
Un esquema representativo implica la compresión de esa parte de la información que se desea transmitir. Ese esquema representacional del lenguaje está siempre evaluando qué parte se ha de transmitir; qué información se ha de transmitir, como la descripción de formas u otras propiedades, sus movimientos, el funcionamiento interno o el evidente, su historia o el fin para el cual fue diseñado o construido.
Un hueso puede ser un arma o una herramienta (recuerden esa escena en “2001, una odisea espacial” justo cuando el hueso arrojado al aire se transforma en nave espacial) según el uso y por tanto el lenguaje usado para transmitir una propiedad u otra.
En una representación icónica se puede transmitir parte de toda la información. Un esquema, grafo, figura o trazo puede representar esa parte de información necesaria sin realmente acceder a toda la información almacenada. Un mapa puede dar la información de los nombres de las bahías, ríos o simplemente la distancia entre dos puntos. Un cuadro puede dar la información de la época de una tintura, la perspectiva o el mensaje entre colores o miradas.

Los límites del lenguaje
Comprender esos esquemas de representación lingüística es reconocer sus limitaciones y cuánta información transmite. El lenguaje hablado es un método, a veces equívoco, para transmitir información: las mismas palabras u oraciones aisladas y despojadas de contexto dicen poco. Si obviamos los preámbulos y presentaciones, toda conversación se desarrolla en base a "referencias" a algo dicho previamente, algo que les da contexto. Ante tantos homónimos y diferentes pronombres, muchas oraciones son profundamente ambiguas. Sin contar esas pequeñas lagunas de pronunciación, ruidos o abreviaciones que confunden a un oyente no avezado. Las adivinanzas están repletas de esas incertezas y referencias equívocas.
Los humanos no necesitamos un vehículo perfecto para la comunicación porque compartimos una comprensión no lingüística. Nuestra comprensión de una oración a menudo depende de nuestra comprensión más profunda de los contextos en los que aparece este tipo de oración, lo que nos permite inferir lo que se está tratando de decir. Esto es obvio en la conversación, ya que a menudo estamos hablando de algo directamente frente a nosotros, como un partido de fútbol, o comunicándonos sobre algún objetivo claro dados los roles sociales en juego en una situación, como pedir comida a un camarero. Pero lo mismo ocurre con la lectura de pasajes, una lección que no solo socava las pruebas de lenguaje de sentido común en IA, sino también un método popular para enseñar habilidades de comprensión de lectura sin contexto a los niños. Este método se centra en el uso de estrategias generalizadas de comprensión de lectura para comprender un texto, pero la investigación sugiere que la cantidad de conocimiento de fondo que un niño tiene sobre el tema es en realidad el factor clave para la comprensión. La comprensión de una oración o pasaje depende de una comprensión subyacente de lo que trata el tema.
La naturaleza inherentemente contextual de las palabras y oraciones está en el corazón de cómo funcionan los LLM. Las redes neuronales en general representan ese conocimiento (el know-how), esa habilidad de captar patrones altamente sensibles al contexto y encontrar regularidades tanto concretas como abstractas, necesarias para evaluar esos inputs dándoles matices para cumplir su tarea. En los LLM, esto implica que el sistema discierna patrones en múltiples niveles en los textos existentes, viendo cómo las palabras individuales están conectadas en el discurso, pero también cómo las oraciones se relacionan dentro del discurso más grande que las enmarca. El resultado es que su comprensión del lenguaje es indiscutiblemente contextual; cada palabra se entiende no en su significado en el diccionario, sino en términos del papel que desempeña en una colección diversa de oraciones, el discurso. Muchas palabras como "carburador", "menú", "depuración" o "electrón", se usan casi exclusivamente en campos específicos, incluso una oración aislada con una de estas palabras lleva su contexto implícitamente.
En resumen, los LLM están capacitados para captar el conocimiento de fondo para cada oración, mirando las palabras y oraciones circundantes para reconstruir lo que está sucediendo. Esto les permite tomar una posibilidad infinita de diferentes oraciones o frases como entrada y encontrar formas plausibles (a veces) de continuar la conversación o completar el resto del pasaje. Un sistema entrenado en pasajes escritos por humanos, a menudo conversando entre sí, debe llegar a la comprensión general necesaria para una conversación convincente.

Comprensión superficial
Si bien algunos se resisten a usar el término "comprensión" en este contexto o a llamar a los LLM "inteligentes" no está claro el control semántico que se está adoptando. Los críticos a los LLM ven una especie de mimetismo debido a que es una comprensión impresionante pero somera del lenguaje. Este tipo de comprensión superficial es familiar; las aulas están llenas de estudiantes que hablan una jerga en la que someramente saben de lo que están hablando cuando realmente participan en una imitación de sus profesores o de los textos que están leyendo. Así es mayormente nuestra información básica: no sabemos lo poco que sabemos, especialmente cuando se trata del conocimiento adquirido del lenguaje.
Estos LLM tienen esa comprensión superficial. Un sistema como GPT-3 se entrena enmascarando las palabras futuras en una oración o pasaje adivinando (estadísticamente) cuál sería la siguiente palabra más probable y luego se corrige si hubiera malas conjeturas. El sistema eventualmente se vuelve competente para adivinar las palabras más probables, lo que las convierte en un sistema predictivo efectivo.
Esto trae consigo una comprensión genuina: para cualquier pregunta o rompecabezas, generalmente solo hay unas pocas respuestas correctas. Esto obliga al sistema a aprender habilidades específicas del idioma, como explicar un chiste, resolver una adivinanza o un rompecabezas, para predecir regularmente la respuesta correcta a este tipo de preguntas. Estas habilidades, y el conocimiento conectado, permiten a la máquina explicar cómo funciona algo complicado, simplificar conceptos difíciles, reformular y volver a contar historias, junto con una serie de otras habilidades dependientes del lenguaje. En lugar de una base de datos masiva de oraciones vinculadas por reglas lógicas, como asumió la Symbolic AI, el conocimiento se representa como un conocimiento sensible al contexto para llegar a una oración plausible dado todo el discurso anterior.
La capacidad de explicar un concepto lingüísticamente es diferente de la capacidad de usarlo prácticamente. El sistema puede explicar cómo realizar una división larga sin poder realizarla o explicar qué palabras son ofensivas y no deben decirse mientras luego las dice alegremente. El conocimiento contextual está implícito en la capacidad de obtener el conocimiento lingüístico aunque no en todas las habilidades que puede transmitir un lenguaje como la habilidad de ser empático o manejar un tema difícil con sensibilidad.
Este último tipo de conocimiento es esencial para los usuarios de idiomas, pero eso no los convierte en habilidades lingüísticas: el componente lingüístico es incidental, no lo principal. Esto se aplica a muchos conceptos, incluso a los aprendidos de conferencias y libros: en las asignaturas de ciencias los estudiantes se califican principalmente en función de su trabajo de laboratorio, ser capaz de hablar de algo no es tan útil o importante como la habilidad para que las cosas funcionen.
Una vez que rascamos debajo de la superficie, es más fácil ver cuán limitados son realmente estos sistemas: tienen la capacidad de atención y la memoria de aproximadamente un párrafo. Puede estar bien si entablamos una conversación normal porque tendemos a centrarnos solo en el último comentario o dos y nos enfocamos solo en nuestra próxima respuesta.
El conocimiento previo para las conversaciones más complejas (escucha activa, recordar y revisar comentarios anteriores, apegarse a un tema para hacer un punto específico mientras se defiende de los distractores, etc.) requieren más atención y memoria de la que posee el sistema. Esto reduce aún más el tipo de comprensión disponible para ellos: es fácil engañarlos simplemente siendo inconsistentes cada pocos minutos, cambiando de idioma o con significados ambiguos (gas-lighting) al sistema. Si son demasiados pasos atrás, el sistema simplemente comenzará de nuevo, aceptando sus nuevos puntos de vista como consistentes con los comentarios más antiguos, cambiando de idioma con usted o reconociendo que cree lo que dijo. Esa comprensión necesaria para desarrollar una visión coherente del mundo (su entorno o contexto) está mucho más allá de lo que puede conocer.

Más allá del lenguaje
Abandonar la visión de que todo conocimiento es lingüístico nos permite darnos cuenta de cuánto de nuestro conocimiento no es lingüístico. Si bien los libros contienen mucha información que podemos descomprimir y usar. Lo vemos por ejemplo en las instrucciones de IKEA que ni siquiera se molestan en escribir las indicaciones junto con sus dibujos. Los investigadores de IA a menudo miran primero los diagramas en las documentaciones, intentan comprender la arquitectura de la red y solo luego leen el texto; un turista en Nueva York puede visitar casi todos los puntos de interés más populares siguiendo unas líneas rojas o verdes en su mapa de trotamundos.
Esto va más allá de simples iconos, gráficos y mapas. Los humanos aprendemos mucho más explorando el mundo y lo que "aprehendemos" de los objetos y las personas y como se comportan. Las estructuras de los artefactos y el entorno humano transmiten mucha información que vamos conformando intuitivamente con la finalidad de ser fácilmente "apredidas". La simulación mental no lingüística, en animales y humanos, es común y útil para planificar diferentes escenarios y se puede utilizar para crear o aplicar ingeniería inversa en el diseño de nuestras herramientas. Del mismo modo, las costumbres y rituales sociales pueden transmitir todo tipo de habilidades a la próxima generación a través de la imitación, como en la preparación de alimentos y medicinas o las habilidades sociales. Gran parte de nuestro conocimiento cultural es icónico o en forma de movimientos precisos transmitidos del practicante calificado al aprendiz. Estos patrones matizados de información son difíciles de expresar y transmitir en el lenguaje, pero aún son accesibles para el resto de la sociedad. Este es también el tipo preciso de información sensible al contexto en el que las redes neuronales sobresalen: la captación y el perfeccionamiento.
El lenguaje es importante porque puede transmitir mucha información en un formato pequeño - especialmente después de la creación de la imprenta e Internet- y puede implicar reproducirlo y ponerlo a disposición ampliamente. Pero comprimir la información en el lenguaje no es gratuito: se necesita mucho esfuerzo para decodificar un pasaje denso. Las clases de humanidades pueden requerir mucha lectura fuera de clase, pero una buena parte del tiempo de clase todavía se dedica a repasar pasajes difíciles. Construir una comprensión profunda requiere mucho tiempo y es extenuante, aún así existe mucha información en juego.
Esto explica por qué una máquina entrenada en el lenguaje puede comprimir tanta información y sin embargo comprender tan poco. Es adquirir una pequeña parte del conocimiento humano a través de un pequeño cuello de botella (el lenguaje) perdiendo parte de la información en aras de la comunicación. Por lo tanto, es un poco similar a un espejo: da la ilusión de profundidad y puede reflejar casi cualquier cosa, pero solo tiene un centímetro de grosor. Si intentamos explorar sus profundidades nos damos de morros con esa superficie.

Exorcizando al fantasma
Estos programas no son ni estúpidos ni inteligentes, solo nos hacen pensar en sus habilidades y los límites de sus poderes para simular una destreza en el manejo del lenguaje. Un sistema entrenado solo en el lenguaje nunca se aproximará a la inteligencia humana, aunque se entrenara hasta el fin de los tiempos. Es una manera inadecuada si deseamos imitar una conciencia como la del ser humano. Sólo se parecerán a ella y sólo superficialmente. Para la práctica, la superficie es suficiente; igualmente no vamos haciendo la prueba de Turing a las personas, evaluándolas profundamente en su comprensión y planteándoles problemas complicados y tests. La mayoría de las conversaciones son realmente pequeñas charlas.
No debemos confundir la comprensión superficial que poseen los LLM con la comprensión profunda que los humanos adquieren al ver todo el espectáculo del mundo, explorando, experimentando e interactuando con otras personas. Algo que someramente llamamos cultura. El lenguaje puede ser un componente útil que amplía nuestra comprensión del mundo pero el lenguaje no "es" la inteligencia como es evidente en muchas especies como los córvidos, los pulpos y los primates.
Más bien, la comprensión no lingüística profunda es dónde el lenguaje es útil, es allí dónde poseemos una comprensión más profunda del mundo (sus matices y diferentes significados) en dónde podemos entender rápidamente de lo que otras personas están hablando (la cultura, otra vez). Este tipo de aprendizaje y conocimiento más amplio y sensible al contexto es el tipo de conocimiento más básico y antiguo, uno que subyace a la aparición de la sensibilidad en las criaturas encarnadas y hace posible sobrevivir y florecer. También es la tarea más esencial en la que los investigadores de IA se están enfocando cuando buscan el sentido común en la IA, en lugar de esta parafernalia lingüística. Los LLM no tienen un cuerpo estable o un mundo permanente del que ser sensibles, por lo que su conocimiento comienza y termina en las palabras y su sentido común siempre es somero. El objetivo es que los sistemas de IA se centren en el mundo del que se habla, no en las palabras en sí en dónde los LLM no llegarán a esa distinción. No hay manera de aproximarse a esta comprensión profunda únicamente a través del lenguaje, es un camino equivocado. Evaluar la "comprensión" de estos LLMs evidencia que al conocimiento y su información no puede llegarse sólo a través del lenguaje.

To read the original essay and other similar essays in English, visit:noemamag.com

Juan M.Gienini

La IA y los límites del lenguaje

Contacto: