Reflexión Cognitiva: la IA (Bard y ChatGPT) supera el Test de Frederick

El Test de Frederick, diseñado para medir nuestra capacidad de reflexión y análisis, es del tipo ‘prueba de reflexión cognitiva’ (CRT, por sus siglas en inglés), fue el resultado de un trabajo de investigación publicado por Shane Frederick en el 2005.

El test consta únicamente de tres preguntas, pero no por ello es sencillo de resolver. En su origen se presentó a un total de 3.428 personas que formaron parte de la investigación, entre los que se encontraban estudiantes de reconocidas universidades estadounidenses como Yale o Harvard. Un 33 % del total de los participantes fallaron las 3 preguntas y únicamente un 17 % acertaron todas las preguntas.

Del colectivo de los estudiantes del MIT que participaron en la prueba, solo el 48 % de los estudiantes respondieron a las tres preguntas correctamente. Es importante destacar que estas pruebas son consideradas como idóneas y efectivas para evaluar el enfoque reflexivo de una persona. Según el psicólogo Freederick, «los tres elementos propuestos en su CTR son ‘fáciles’ en el sentido de que su solución se entiende fácilmente cuando se explica, pero llegar a la respuesta correcta a menudo requiere la supresión de una respuesta errónea que surge ‘impulsivamente’ en la mente».

Estas son las tres preguntas que conforman este test de inteligencia:

  1. Un bate y una pelota cuestan 1,10 dólares en total. El bate cuesta 1 dólar más que la pelota. ¿Cuánto cuesta la pelota?
  2. Si cinco máquinas tardan cinco minutos en fabricar cinco aparatos, ¿cuánto tiempo tardarían 100 máquinas en fabricar 100 aparatos?
  3. En un lago, hay una zona cubierta de nenúfares. Todos los días, esta superficie se duplica en tamaño. Si esta área tarda 48 días en cubrir todo el lago, ¿cuánto tiempo tardará en cubrir la mitad del lago?

El autor de esta entrada, pasó el test y falló en la primera pregunta y, decidí, que los dos grandes modelos de la IA conversacional (ChatGPT de OpenAI y Bard de Google) debían pasar la prueba. El resultado fue el siguiente:

 

Bard, generó tres versiones en sus respuestas. Las respuestas y argumentaciones en sus tres versiones fueron:

a) En sus tres versiones: la pelota cuesta 5 centavos.

Argumento versión 1: “Si el bate cuesta 1 dólar más que la pelota, y el total de ambos es de 1,10 dólares, entonces la pelota cuesta 1,10 – 1 = 0,10 dólares. Como 100 centavos equivalen a 1 dólar, entonces 0,10 dólares equivalen a 0,10 * 100 = 5 centavos.”

Argumento versión 2: “Si el bate cuesta 1 dólar más que la pelota, entonces la pelota cuesta 1 dólar – 1 dólar = 0 dólares. Sin embargo, el enunciado dice que la pelota cuesta algo, por lo que el precio de la pelota debe ser menor que 1 dólar.

Si el precio de la pelota fuera de 10 centavos, entonces el total sería 10 centavos + 1 dólar = 1 dólar y 10 centavos, que es mayor que 1,10 dólares. Por lo tanto, el precio de la pelota debe ser de 5 centavos, ya que es el único precio que cumple con las condiciones del enunciado.

Argumento versión 3:Si el bate cuesta 1 dólar más que la pelota, entonces el precio de la pelota es x dólares. El precio total del bate y la pelota es:

 x + (x + 1) = 1,10 dólares.

Resolviendo la ecuación, obtenemos:

2x + 1 = 1,10

2x = 0,10

x = 0,05

Por lo tanto, el precio de la pelota es 5 centavos”.

b) tardarían 5 minutos.

Mismo argumento en las tres versiones: “El tiempo que tarda en fabricar 100 aparatos 100 máquinas es el mismo que el tiempo que tarda en fabricar 5 aparatos 5 máquinas. Por lo tanto, el tiempo es de 5 minutos”.

c) En la versión 1: 24 días, en las versiones 2 y 3: 47 días.

Argumento en la versión 1: La zona cubierta de nenúfares se duplica todos los días, por lo que tardará la mitad de tiempo en cubrir la mitad del lago que en cubrir todo el lago. En este caso, tardará 48 / 2 = 24 días en cubrir la mitad del lago.

Otra forma de resolver el problema es observar que la zona cubierta de nenúfares se duplica a razón de 1/2 cada día. Por lo tanto, tardará 24 / (1/2) = 24 días en cubrir la mitad del lago”.

Argumento en la versión 2: En el día 48, la superficie cubierta de nenúfares es igual a la superficie total del lago. En el día 47, la superficie cubierta de nenúfares es la mitad de la superficie total del lago. Por lo tanto, el tiempo que tarda en cubrir la mitad del lago es de 47 días”.

Argumento en la versión 3: Si el área cubierta de nenúfares tarda 48 días en cubrir todo el lago, entonces tarda 47 días en cubrir la mitad del lago.

La razón es que, como la superficie se duplica cada día, la mitad del lago se cubre en el día anterior al que se cubre todo el lago”.

ChatGPT, en su versión 3.5, respondió directamente: 

Vamos a resolver cada una de las preguntas:

a) Si llamamos ‘x’ al costo de la pelota en dólares, entonces el costo del bate sería ‘x + 1’ dólar, ya que el bate cuesta 1 dólar más que la pelota. La suma de estos dos costos es 1,10 dólares. Por lo tanto, podemos escribir la ecuación: x + (x + 1) = 1,10

Resolviendo esta ecuación: 2x + 1 = 1,10 2x = 0,10 x = 0,05

Entonces, la pelota cuesta 0,05 dólares.

b) Si cinco máquinas pueden fabricar cinco aparatos en cinco minutos, significa que cada máquina está fabricando un aparato en cinco minutos. Por lo tanto, cada máquina tarda cinco minutos en fabricar un aparato. Si tienes 100 máquinas fabricando 100 aparatos, seguirán tardando cinco minutos, ya que cada máquina sigue trabajando a la misma velocidad.

c) Si el área de los nenúfares se duplica todos los días y tarda 48 días en cubrir todo el lago, entonces en el día anterior debe haber cubierto la mitad del lago. Esto se debe a que si el área se duplica cada día, entonces retroceder un día implica reducir a la mitad el tamaño total. Por lo tanto, el área de la mitad del lago se habrá cubierto en el día 47.

Según la investigación de Frederick, las respuestas más comunes (y erróneas) a estos tres interrogantes suelen ser las siguientes: 10 centavos, 100 minutos y 24 días, respectivamente. Mientras que las respuestas correctas son: 5 centavos, 5 minutos. 47 días. 

ChatGPT las acertó todas. Bard también las acertó todas, salvo la prueba c, en su primera versión, en la que respondió erróneamente. 

Para la argumentación de la primera prueba, Frederick indicó que “cualquiera que reflexione sobre esto, aunque sea por un momento, reconocerá que la diferencia entre un dólar y 10 centavos es solo 90 centavos, no un dólar, como estipula el problema. En este caso, detectar ese error equivale a resolver el problema, ya que casi todos los que no responden ‘10 centavos’, de hecho, dan la respuesta correcta”.

La gran duda es sí, las respuestas ya las tenían incorporadas Bard y ChatGPT en sus respectivos modelos en la fase de entrenamiento. Les pregunté:

— Bard: ¿Cuáles han sido tus fuentes para resolver las tres preguntas?

— “Para resolver las tres preguntas, he utilizado mis conocimientos de matemáticas, lógica y razonamiento.

Para la primera pregunta, he utilizado una ecuación para resolver el problema.

Para la segunda pregunta, he utilizado la lógica para entender que el tiempo que tarda una máquina en fabricar un aparato es el mismo, independientemente del número de máquinas que se utilicen.

Para la tercera pregunta, he utilizado la lógica para entender que, como la superficie se duplica cada día, la mitad del lago se cubre en el día anterior al que se cubre todo el lago.

También he utilizado mi conocimiento del mundo real para entender la relevancia de las preguntas y para proporcionar respuestas que sean útiles y significativas.

En general, he utilizado una combinación de conocimientos y razonamiento para resolver las tres preguntas.”.

— GPT: ¿Cuáles han sido tus fuentes para resolver las tres preguntas?

— “Mis respuestas están basadas en el razonamiento lógico y matemático. El razonamiento utilizado para resolver las tres preguntas es estándar y se basa en principios matemáticos simples, como la resolución de ecuaciones lineales, la comprensión de proporciones y el uso de patrones de crecimiento exponencial. No he consultado fuentes externas específicas para proporcionar estas respuestas, ya que están dentro del ámbito del conocimiento matemático general.”

Es lo que hay 🤔

 

Publicado:

en

,

por

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *