Falla más de la mitad de las veces

"El 52% de las respuestas de ChatGPT son erróneas": la conclusión a la que ha llegado un estudio

Un estudio científico de la universidad de Purdue para evaluar la calidad de las respuestas de ChatGPT a preguntas sobre desarrollo da cuenta del porcentaje de error

Foto: A la hora de crear código, ChatGPT falla un 52% de las veces (PEXELS) — A la hora de crear código, ChatGPT falla un 52% de las veces (PEXELS)

Por

28/05/2024 - 17:01

Hace poco vimos cómo el nuevo buscador de Google potenciado con inteligencia artificial, AI Overview, fallaba más que el buscador tradicional al ofrecer para algunas preguntas respuestas alocadas. Algunas de ellas causaron revuelto en las redes sociales, por afirmar que “el 100% del contenido en internet es real” o que “echarle pegamento a una pizza” era una buena idea.

El problema es bien conocido entre los expertos en inteligencia artificial, y se conoce como ‘alucinaciones’. Un modelo de generación lingüística no es capaz de revisar si sus propias respuestas son incorrectas, de modo que siempre ofrece una respuesta a una pregunta, aunque sea con información inventada.

Foto: Elon Musk y Yann Lecun se enzarzan en una pelea en X

TE PUEDE INTERESAR

Pelea de 'gallos' entre Elon Musk y el capo de IA de Meta: "¿Tú qué sabes de ciencia?"

Pablo Rey

Pero los chatbots, como ChatGPT o Gemini, no solo se utilizan para realizar búsquedas de información en la web o redactar algún texto. Hay muchos programadores informáticos que la utilizan para realizar consultas en su campo, pues estos modelos son capaces de generar código.

Hasta ahora, el método principal para responder cuestiones de desarrolladores era un portal web conocido en el mundillo. Se trata de Stack Overflow, la mayor comunidad online para compartir conocimiento informático. En el propio portal son conscientes del uso que los desarrolladores hacen de ChatGPT, y por eso hasta hace poco estaba prohibido usarlo.

Ahora bien, debido a este uso que se está haciendo de ChatGPT, varios científicos de la universidad de Purdue, en Estados Unidos, han llevado a cabo un estudio exhaustivo para evaluar cuáles son las características de las respuestas del chatbot de OpenAI ante cuestiones de programación. Y los resultados no son muy alentadores.

No te puedes fiar de los resultados

El 52% de las respuestas del Bot contenían información incorrecta. Se le realizaron 517 preguntas de programación extraídas de posts en Stack Overflow, examinando la corrección, consistencia, exhaustividad y concisión. Otras conclusiones que saca el estudio, es que el 77% de las respuestas son redundantes o demasiado largas.

placeholder — Calidad de las respuestas puntuadas por los participantes del ensayo

Calidad de las respuestas puntuadas por los participantes del ensayo

No obstante, los sujetos que participaron en el estudio aún prefirieron las respuestas de ChatGPT en el 35% de los casos debido a la claridad y exhaustividad de la exposición. Pero hay que tener en cuenta que no se percataron de los errores de las respuestas en el 39% de las veces.

“Esto demuestra la necesidad de contrarrestar la desinformación en las respuestas de ChatGPT a preguntas de programación y aumentar la consciencia sobre los riesgos asociados con respuestas aparentemente correctas”, afirma el estudio. El acuerdo que han llevado a cabo recientemente OpenAI y Stack Overflow podría ayudar a solventar este problema, pero ¿hasta qué punto? Tal vez los científicos deberían repetir el estudio una vez ChatGPT pueda acceder a la API del portal de programadores.

Inteligencia Artificial Tecnología

El redactor recomienda