¿Funciona ChatGPT cada vez peor?

julio 21, 2023

Un nuevo estudio asegura que las capacidades del chatbot se están degradando.

Algo está cambiando en ChatGPT, pero nadie parece ponerse de acuerdo en cuál es exactamente el problema o por qué está ocurriendo. El caso es que los usuarios de GPT-4, el modelo de lenguaje de pago se quejan de que su rendimiento se degrada con el tiempo, ofreciendo cada vez más falsas respuestas y negándose a ejecutar comandos que antes hacía bien. Un nuevo estudio muestra que, efectivamente, la IA ha pasado por cambios, aunque no como los usuarios esperan.

El estudio procede de investigadores de las Universidades de Stanford y UC Berkeley, y acaba de ser aceptado en ArXiv. En él sus autores aseguran que GPT-4 y GPT-3.5 responden de manera diferente a como lo hacían hace unos meses, y los cambios no son todos a mejor. GPT-4, por ejemplo está dando peores respuestas a preguntas complicadas de matemáticas. Antes, por ejemplo, era capaz de responder con exactitud sobre números primos largos. Ahora esa exactitud ha decrecido hasta el punto de que solo el 2,4% de las respuesta que da al respecto son correctas.

Simultáneamente, las versiones anteriores del modelo de lenguaje explicaban sus procesos de manera más transparente. Ahora, sin embargo, el chatbot parece reacio a explica cómo llega a las respuestas paso a paso. Entre marzo y junio de este año, GPT-3.5 responde mejor a problemas de matemáticas básicos incluso aunque su código es menos avanzado.

¡Crea tu página ahora!

We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) July 19, 2023

Por supuesto, existe mucha especulación sobre por qué CjhatGPT se está volviendo peor con el paso del tiempo, o incluso si realmente le está pasando eso en realidad.

Usuarios regulares del chatbot se preguntan en Reddit si GPT-4 realmente está rindiendo peor, o es simplemente que ahora son más conscientes de sus limitaciones. Algunos usuarios explican, por ejemplo, que cuando piden al chatbot reestructurar un texto, este ignora el comando y escribe pura ficción. Otros se quejan de que el modelo de lenguaje ha dejado de ser capaz de resolver problemas matemáticos o de código que antes resolvía sin problemas. No falta quien ve en estos fallos parte de la razón por la que el número de usuarios de ChatGPT descendió por primera vez hace unas semanas.

¿Es peor ahora el código que genera ChatGPT?

La última iteración de GPT-4 parece menos capaz de responder con precisión a las preguntas de razonamiento espacial. Además, los investigadores encontraron que la capacidad de codificación de GPT-4 también se ha deteriorado como la de un estudiante universitario que sufriera de senioritis.

El equipo introdujo las respuestas de código ofrecidas por el chatbot en la web de aprendizaje de código en línea LeetCode. En su versión más reciente, solo el 10% del código funcionaba. En la versión de marzo, sin embargo, el 50% de ese código era ejecutable.

En una entrevista telefónica con Gizmodo, los investigadores Matei Zaharia y James Zou explicaron que las respuestas modernas incluyenm más texto base y que ese código requiere ediciones con más frecuencia que las versiones anteriores. OpenAI ha presumido de la capacidad de razonamiento de su chatbot en las pruebas de opción múltiple, pero el programa solo obtuvo una puntuación del 67 % en la prueba de codificación HumanEval Python.

Los cambios realizados en GPT-4, sean cuales sean, plantean un problema para las empresas que esperan integrar el código que genera ChatGPT de manera rutinaria. Los cambios del modelo de lenguaje a lo largo del tiempo también ponen de manifiesto los problemas que surgen para cualquiera que confíe en una IA patentada y opaca procedente de una empresa.

“Nuestro estudio destaca los desafíos de la integración confiable de estos modelos de lenguaje”, explicó Zou.

El profesor de Stanford agregó que “mucho de esto podría deberse a que ahora GPT-4 es más conversacional”, aunque es difícil para alguien en el exterior saber qué sucede bajo el capó.

La experiencia reciente de los usuarios con el chatbot ha llevado a la especulación en línea de que OpenAI está aumentando las capacidades de su modelo GPT-3.5 porque la versión anterior es mucho más pequeña y, por lo tanto, mucho más barata de ejecutar que GPT-4. La semana pasada, el vicepresidente de producto de OpenAI, Peter Welinder, lo dijo sin rodeos: “No, no hemos hecho que GPT-4 sea más tonto”. Además, afirmó que más personas que usaban ChatGPT simplemente estaban aceptando las limitaciones del modelo.En Gizmodo nos pusimos en contacto con OpenAI para obtener la respuesta de la compañía a las quejas de los usuarios y al estudio, pero no recibimos respuesta.

¿Funciona ChatGPT cada vez peor?

Un nuevo estudio asegura que las capacidades del chatbot se están degradando.

Por supuesto, existe mucha especulación sobre por qué CjhatGPT se está volviendo peor con el paso del tiempo, o incluso si realmente le está pasando eso en realidad.

¿Es peor ahora el código que genera ChatGPT?

“Nuestro estudio destaca los desafíos de la integración confiable de estos modelos de lenguaje”, explicó Zou.

Relacionado

ConfigServer cerrará definitivamente: el fin de 25 años de herramientas esenciales para servidores Linux

Un gigante tecnológico lo tiene claro: La próxima gran revolución ya está en marcha.

La ciudad subacuática que podría cambiarlo todo: El ambicioso plan en Reino Unido para vivir bajo el mar.

El invento de NVIDIA que amenaza con hacer desaparecer los micrófonos para siempre

¿Por qué cada vez más usuarios abandonan el Apple Watch? Una tendencia que podría acabar con el dispositivo.

¿Amenaza a la vista? Google elimina su compromiso de no desarrollar armas con IA

El “motor perfecto” ya es una realidad, pero su combustible desafía toda lógica.

El ritmo de desarrollo de la inteligencia artificial es aterrador, según un ex empleado de OpenAI.

¿La piel humana como batería? La tecnología que cambiará todo.

Las 3 carreras tecnológicas que dominarán 2025: El futuro ya está aquí.

¿Funciona ChatGPT cada vez peor?

Un nuevo estudio asegura que las capacidades del chatbot se están degradando.

Por supuesto, existe mucha especulación sobre por qué CjhatGPT se está volviendo peor con el paso del tiempo, o incluso si realmente le está pasando eso en realidad.

¿Es peor ahora el código que genera ChatGPT?

“Nuestro estudio destaca los desafíos de la integración confiable de estos modelos de lenguaje”, explicó Zou.

Relacionado

Share This Post

Related Posts

Descubre más desde Dominio Libre