
Un nuevo estudio asegura que las capacidades del chatbot se están degradando.
Algo está cambiando en ChatGPT, pero nadie parece ponerse de acuerdo en cuál es exactamente el problema o por qué está ocurriendo. El caso es que los usuarios de GPT-4, el modelo de lenguaje de pago se quejan de que su rendimiento se degrada con el tiempo, ofreciendo cada vez más falsas respuestas y negándose a ejecutar comandos que antes hacía bien. Un nuevo estudio muestra que, efectivamente, la IA ha pasado por cambios, aunque no como los usuarios esperan.
El estudio procede de investigadores de las Universidades de Stanford y UC Berkeley, y acaba de ser aceptado en ArXiv. En él sus autores aseguran que GPT-4 y GPT-3.5 responden de manera diferente a como lo hacían hace unos meses, y los cambios no son todos a mejor. GPT-4, por ejemplo está dando peores respuestas a preguntas complicadas de matemáticas. Antes, por ejemplo, era capaz de responder con exactitud sobre números primos largos. Ahora esa exactitud ha decrecido hasta el punto de que solo el 2,4% de las respuesta que da al respecto son correctas.
Simultáneamente, las versiones anteriores del modelo de lenguaje explicaban sus procesos de manera más transparente. Ahora, sin embargo, el chatbot parece reacio a explica cómo llega a las respuestas paso a paso. Entre marzo y junio de este año, GPT-3.5 responde mejor a problemas de matemáticas básicos incluso aunque su código es menos avanzado.
Por supuesto, existe mucha especulación sobre por qué CjhatGPT se está volviendo peor con el paso del tiempo, o incluso si realmente le está pasando eso en realidad.
Usuarios regulares del chatbot se preguntan en Reddit si GPT-4 realmente está rindiendo peor, o es simplemente que ahora son más conscientes de sus limitaciones. Algunos usuarios explican, por ejemplo, que cuando piden al chatbot reestructurar un texto, este ignora el comando y escribe pura ficción. Otros se quejan de que el modelo de lenguaje ha dejado de ser capaz de resolver problemas matemáticos o de código que antes resolvía sin problemas. No falta quien ve en estos fallos parte de la razón por la que el número de usuarios de ChatGPT descendió por primera vez hace unas semanas.

¿Es peor ahora el código que genera ChatGPT?
La última iteración de GPT-4 parece menos capaz de responder con precisión a las preguntas de razonamiento espacial. Además, los investigadores encontraron que la capacidad de codificación de GPT-4 también se ha deteriorado como la de un estudiante universitario que sufriera de senioritis.
El equipo introdujo las respuestas de código ofrecidas por el chatbot en la web de aprendizaje de código en línea LeetCode. En su versión más reciente, solo el 10% del código funcionaba. En la versión de marzo, sin embargo, el 50% de ese código era ejecutable.
En una entrevista telefónica con Gizmodo, los investigadores Matei Zaharia y James Zou explicaron que las respuestas modernas incluyenm más texto base y que ese código requiere ediciones con más frecuencia que las versiones anteriores. OpenAI ha presumido de la capacidad de razonamiento de su chatbot en las pruebas de opción múltiple, pero el programa solo obtuvo una puntuación del 67 % en la prueba de codificación HumanEval Python.
Los cambios realizados en GPT-4, sean cuales sean, plantean un problema para las empresas que esperan integrar el código que genera ChatGPT de manera rutinaria. Los cambios del modelo de lenguaje a lo largo del tiempo también ponen de manifiesto los problemas que surgen para cualquiera que confíe en una IA patentada y opaca procedente de una empresa.

“Nuestro estudio destaca los desafíos de la integración confiable de estos modelos de lenguaje”, explicó Zou.
El profesor de Stanford agregó que “mucho de esto podría deberse a que ahora GPT-4 es más conversacional”, aunque es difícil para alguien en el exterior saber qué sucede bajo el capó.
La experiencia reciente de los usuarios con el chatbot ha llevado a la especulación en línea de que OpenAI está aumentando las capacidades de su modelo GPT-3.5 porque la versión anterior es mucho más pequeña y, por lo tanto, mucho más barata de ejecutar que GPT-4. La semana pasada, el vicepresidente de producto de OpenAI, Peter Welinder, lo dijo sin rodeos: “No, no hemos hecho que GPT-4 sea más tonto”. Además, afirmó que más personas que usaban ChatGPT simplemente estaban aceptando las limitaciones del modelo.En Gizmodo nos pusimos en contacto con OpenAI para obtener la respuesta de la compañía a las quejas de los usuarios y al estudio, pero no recibimos respuesta.



Debe estar conectado para enviar un comentario.