Según un estudio de Stanford

¿Alucinaciones de ChatGPT? Los errores podrían limitarse con herramientas jurídicas

Un documento indica que las plataformas específicas del sector legal generan menos errores que otras genéricas. Pero aun así, los expertos dicen que se debe revisar y poner atención a cada una de las respuestas

Foto: ¿Qué pasa con las alucinaciones de ChatGPT o las herramientas jurídicas de IA? — ¿Qué pasa con las alucinaciones de ChatGPT o las herramientas jurídicas de IA?

Por

11/06/2024 - 05:00

EC EXCLUSIVO Artículo solo para suscriptores

La llegada de la inteligencia artificial generativa (IAG) fue un gran bombazo a nivel global. Muchas organizaciones comenzaron a usar ChatGPT y herramientas similares, otros, incluso, apostaron por crear sus propias fuentes de IA. El sector legal ha sido uno de los grandes exploradores en esta tecnología, pero no se trata de llegar e implementarla, sino que hay que tener mucho cuidado con las llamadas alucinaciones. La buena noticia es que estas pueden limitarse y más si se usa una solución que sea específicamente destinada al sector jurídico.

Pero, ¿qué es una alucinación? Los modelos de lenguaje como ChatGPT han logrado entender y crear cualquier tipo de texto "con una impresionante creatividad y exhibiendo enormes conocimientos", indica el director de IA y sistemas de información legal de Lefebvre, Ángel Sancho. Pero añade que estos modelos están diseñados para generar textos en cualquier situación, por lo que prima su capacidad de combinar lo que creen que saben con lo que podría ser. Esto es lo que genera, en ocasiones, las llamadas alucinaciones.

Un informe de Standford RegLab y Stanford human-centered AI (HAI) llamado Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools, ha puesto a IA a prueba, y asegura que los modelos jurídicos alucinan en 1 de cada 6 consultas comparativas. En particular, el estudio analiza las afirmaciones que realizan dos de sus proveedores, LexisNexis, los creadores de Lexis+AI, y Thomson Reuters, creador de Westlaw AI-Assisted Research y Ask Practical Law AI, versus ChatGPT común y corriente.

¿Qué ocurrió? Sus modelos jurídicos reducen estos errores informativos en comparación a los clásicos modelos de IA como es el caso de ChatGPT-4. “Se trata de una mejora sustancial y documentamos casos en los que estas herramientas proporcionan una investigación jurídica sólida y detallada. Pero incluso estas herramientas de IA a medida todavía alucinan una cantidad alarmante de veces”, sentencian en el documento.

Dentro del estudio se hicieron preguntas generales; cuestiones de jurisdicción o de tiempo específico; preguntas con premisas falsas imitando a la comprensión errónea de la ley de los usuarios; y preguntas de recuerdo de hechos que no requieren interpretación legal. El sistema de Lexis+ AI y Ask Practical Law AI produjeron información incorrecta más del 17% de las veces, mientras que la investigación asistida por IA de Westlaw alucinó más del 34% de las veces.

Según indican desde los organismos pertenecientes a Stanford, este tipo de sistemas pueden alucinar de dos formas: que den una respuesta incorrecta por describir mal la ley, y, por otro lado, dar una respuesta equivocada por describir la ley de forma correcta, pero citando una fuente que no respalda las afirmaciones que está nombrando.

En este sentido, el director de IA y sistemas de información legal de Lefebvre, expone que, en ámbitos jurídicos, la combinación de conocimiento aún está incompleto y con la creación de cualquier tipo de texto los convierte en una herramienta potencialmente peligrosa para los profesionales. Para ello, ejemplifica que ChatGPT podría dar respuestas razonables para normas estatales básicas y generar borradores de documentos legales, pero que, sin embargo, “casi todas las sentencias que cite, serán inventadas y cuando se le planteen consultas complejas incluirá con seguridad errores entremezclados, pero muy difíciles de detectar”, sentencia.

Esto último ocurrió hace un tiempo con algunos casos muy polémicos en Estados Unidos. Un abogado de Colorado fue suspendido por un año y un día por haber presentado un escrito que se basaba en jurisprudencia creada por inteligencia artificial. El problema estuvo en que el letrado sabía perfectamente las consecuencias, y decidió no avisar al juez sobre su uso. Fue sancionado por haber infringido sus deberes de diligencia, competencia, lealtad a la profesión y probidad.

Otro caso ocurrió en Florida, cuando un abogado violó las reglas de un tribunal al presentar jurisprudencias inexistentes obtenidas por una herramienta de IA. El letrado contrario notó algo sospechoso en los expedientes, y al pedirle una fuente de información, no fue capaz de decir de dónde venía la información y no pudo justificar el uso de esto. También fue suspendido.

TE PUEDE INTERESAR

Aunque tu abogado no lo reconozca, es muy probable que consulte tu caso en ChatGPT

Pedro del Rosal

“Se está hablando muy en abstracto de los beneficios o no beneficios del uso de la IA generativa. Creo que estudios de este tipo pueden originar primero un debate sobre bases empíricas y diferencias entre proveedores. A veces los departamentos legales o las firmas no tienen equipos con tantos recursos para evaluar los usos o comparar”, indica Eugenia Navarro, socia de Legal Operations Institute Studies (LOIS), sobre este informe. .

Por otro lado, Navarro pone énfasis en que el tiempo de inicio para seleccionar una herramienta suele ser la clave del éxito y recomienda tener expertos que ayuden en la elección, ya que puede ser un factor fundamental para acertar. “Estos expertos deben tener conocimientos tecnológicos, pero también del proceso legal, no es un talento fácil de conseguir y muchas veces requiere de equipos mixtos entre el departamento legal, el de IT o incluso de consultores que ya hayan tenido experiencia previa”, expone.

Hoy son diversos los despachos que utilizan estas tecnologías. Por ejemplo, Uría, Cuatrecasas, Garrigues y Allen, integraron Harvey, la solución de IA similar a ChatGPT pero ligada al sector jurídico. Leya es otra de las plataformas, y Pérez-Llorca y Araoz & Rueda han apostado por ella para sumar esta tecnología en su día a día. Así como estas, también hay otras como Maite.ai, una plataforma española de inteligencia artificial para el mundo de la abogacía, GenIA-L de Lefebvre, y otros también se han lanzado a implantar soluciones diferentes de IAG. Cuatrecasas fue el primer bufete español en incluir una herramienta así, llamada Celia.

Garrigues, por otro lado, tiene un modelo mixto: implementó diferentes soluciones externas (como Copilot, Gemini, entre otros), pero también fue el primer despacho español que apostó por construir su propio modelo de IA llamado Garrigues GAIA. Se trata de un modelo que permite a todos los letrados y miembros del despacho a tener acceso a los documentos internos, y gracias a ello, también han conseguido combatir todos los problemas de confidencialidad. Es un modelo escalable que van adaptando según las necesidades del bufete.

* Si no ves correctamente el módulo de suscripción, haz clic aquí

Pero esto, como se mencionó anteriormente, no solo afecta a los despachos, sino que el área jurídica de las empresas también ha comenzado a aplicarla, así como gran parte de la abogacía de los negocios. De acuerdo con el secretario del consejo y director general de asuntos legales en Repsol, Pablo Blanco, este informe proporciona un análisis empírico exhaustivo sobre la incidencia de las alucinaciones en herramientas de inteligencia artificial, con especial énfasis en el ámbito jurídico.

“Los hallazgos sugieren una correlación directa entre la estructuración de los datos y la fiabilidad de la información generada. En el contexto legal, donde la exactitud es primordial, la estructuración adecuada de los datos emerge como un factor crítico para minimizar la probabilidad de obtener información incorrecta o incompleta”, comenta Blanco.

Ellos, como empresa, se convirtieron en la primera asesoría jurídica en España en incorporar la IA de Harvey. Desde Repsol apuestan por la IA generativa en el ámbito legal, donde se está produciendo “una verdadera revolución tecnológica”, apuntan. "Una revolución tecnológica en la que queremos estar presentes y, al mismo tiempo, de la que queremos aprender. Vemos en esta tecnología, una oportunidad para aportar valor de manera más efectiva y ágil", señala Blanco.

La gran diferencia de uso, según Sancho, es que si únicamente se dispone de productos como ChatGPT, hay que utilizarlos solo para primeras exploraciones o borradores, como se hace con Google. Pero que para uso profesional, son necesarias nuevas herramientas como las que ellos mismos crearon, ya que el control de las capacidades de estos modelos y el desarrollo de nuevas funcionalidades se consigue con contenidos fiables y actualizados, con un trabajo de promt y fine tuning, y el desarrollo de nuevas tecnologías.

Los expertos americanos inciden en que las herramientas específicas del sector legal, dotadas de técnicas RAG (retrieval-augmented generation) anuncian una mejora sustancial en la reducción de alucinaciones. “En todas las áreas de la industria, la generación de recuperación aumentada se considera y promueve como la solución para reducir las alucinaciones en contextos de dominios específicos”, escriben en el documento.

Se dice, que los principales servicios de investigación jurídica han lanzado productos de investigación jurídica impulsados por IA que, según afirman, "evitan" las alucinaciones y garantizan citaciones legales "libres de alucinaciones", el problema está en que no se han proporcionado pruebas contundentes al respecto, por lo que se aún queda trabajo por hacer.

1, 2, 3... leer las veces que sea necesaria

A pesar de que las herramientas específicamente jurídicas sean mejores para estos casos y para evitar cualquier tipo de error (o disminuirlo), los expertos siguen insistiendo en que esto no puede ser un instrumento que vaya por vía propia. "Las herramientas de IA para la investigación jurídica no han eliminado las alucinaciones. Los usuarios de estas herramientas deben seguir verificando que las proposiciones clave estén respaldadas por citas precisas", es una de las principales conclusiones del estudio de Stanford.

De todas formas, igual recomienda su uso, indicando que estos productos pueden ofrecer un valor considerable a los investigadores jurídicos en comparación con los métodos tradicionales de búsqueda por palabra claves o los sistemas de IA de uso general. “La reducción que encontramos en la tasa de alucinaciones de los sistemas RAG jurídicos en comparación con los LLM de propósito general también es prometedora, al igual que su capacidad para cuestionar premisas erróneas”, dicen desde Stanford.

Foto: Foto: iStock/CSA-Printstock/EC Diseño.

TE PUEDE INTERESAR

¿Quién paga el pato si la IA se inventa una sentencia o una ley: ChatGPT o el abogado?

Pedro del Rosal María Jesús Labarca

“Pero hasta que los proveedores no aporten pruebas fehacientes de su fiabilidad, las afirmaciones de que los sistemas de IA jurídica no producen alucinaciones seguirán siendo, en el mejor de los casos, infundadas", añaden desde la institución. Según Sancho, las alucinaciones ocurren en cuatro puntos: al fiarse de la memoria de los modelos de lenguaje, al proporcionarles información no pertinente, por desarrollar prompts vagos y no poder enlazar con precisión a las fuentes. "Estos son peligros que a veces pueden pasar desapercibidos. Por eso, parte de todo el trabajo interno para garantizar la calidad, una de las características que los usuarios pueden observar para distinguir entre herramientas es la facilidad con la que cada una de las afirmaciones se pueda chequear", evidencia.

Otra de las grandes recomendaciones está, en definir un propósito para el uso de este tipo de tecnologías. El problema está en que muchos solo intentan subirse al carro por la fama que tienen estas herramientas, pero si finalmente no es un aporte para el negocio, no será más que un obstáculo. “La importancia de conocer para qué queremos la tecnología antes de empezar es necesaria justamente para poder marcar los elementos que permitan comparar y en base a qué. La IAG es una palabra de moda, pero hay que definir muy bien los casos de uso antes de seleccionar la herramienta. Los estudios independientes ayudan mucho a esa selección”, finaliza Navarro.

Despachos Abogados Inteligencia Artificial

El redactor recomienda

Furor por el ChatGPT legal: crecen las herramientas de IA jurídica 'made in Spain' Irene Cortés
"ChatGPT sacó un 7 en el caso práctico": la IA obliga a rediseñar la formación de los abogados Pedro del Rosal María Jesús Labarca
"Es mejor que un becario": los abogados que convierten ChatGPT en su asistente Irene Cortés