Menos hamburguesas y más paellas: así será el ChatGPT español anunciado por Pedro Sánchez

ChatGPT, Gemini, Copilot y otras aplicaciones basadas en inteligencia artificial y creadas por grandes empresas funcionan bien en español. Este domingo, sin embargo, el presidente Pedro Sánchez anunció en Barcelona que su Gobierno iba a colaborar para construir “un gran modelo fundacional de lenguaje de inteligencia artificial entrenado en castellano y las lenguas cooficiales, en código abierto y transparente”. ¿Qué novedades y beneficios aporta esta iniciativa? Según fuentes del Gobierno, están por ahora solo “en la fase del anuncio del proyecto“: los detalles sobre el personal y la financiación con los que contará el plan se podrán saber “próximamente”, sin concretar la fecha.

EL PAÍS ha consultado cuáles serán los detalles del proyecto con las organizaciones que figuran como colaboradoras en el anuncio de Sánchez, y también con expertos que han participado en proyectos similares en España. Estas son algunas de las características que tendrá este modelo fundacional de inteligencia artificial (IA) hecho en España.

1. No será un ‘chatbot’ general

Un modelo “fundacional” no significa que sea un chatbot general como ChatGPT, que requiere una labor larga y cara con humanos aportando miles de instrucciones. Así que no se le podrá preguntar de todo, ni tendrá una página donde el público pueda acceder. Será un modelo básico de IA para que empresas y administraciones lo entrenen para sus necesidades específicas.

“Este es el problema fundamental”, dice Pep Martorell, director adjunto del Barcelona Supercomputing Center (BSC), institución que Sánchez designó como uno de los responsables del proyecto. “Si la administración quiere crear un chatbot para atención primaria, por ejemplo, ¿cómo lo haría? ¿Sobre OpenAI? Eso tiene muchos problemas, de licencias, de sesgo, de cierre de datos, de lengua”, añade Martorell.

El modelo fundacional son los cimientos sobre los que cada organización hará su “casa” con IA. Es más fácil que el creador de esos cimientos sea un organismo público cercano, más obligado con la transparencia, que una empresa de Silicon Valley: “Una empresa difícilmente tirará de ChatGPT para según qué tareas porque alucina”, dice Marta Villegas, líder de Tecnologías del Lenguaje en el BSC, en referencia a los errores escandalosos en sus respuestas. “Hay situaciones para las que no necesitas tanto y hay mucha demanda de modelos para adaptar a un negocio concreto y lo reentrenen para que responda a preguntas sobre una marca de coches, un servicio público (cómo pagar el IBI, por ejemplo)”, añade.

2. No será fácil de hacer

El BSC y su recién estrenado supercomputador MareNostrum 5 son una pieza básica para crear este modelo. Sin una capacidad de computación enorme es imposible enseñar a una IA a escribir. En un país como España, sin el impulso público de varias administraciones, no sería posible siquiera intentar crear algo así: “Es algo que ya vemos en varios países europeos, desde el sector público se promueve que los modelos se generen aprovechando los recursos de los grandes centros de investigación”, dice Martorell.

Hay además un segundo problema: en España solo un puñado de grupos son capaces de programar un modelo de este tipo. Todos están en centros de investigación o universidades: “Somos un puñado de gente capaz de hacer esto”, dice Germán Rigau, director adjunto de HiTZ (Centro Vasco de Investigación de Tecnologías del Lenguaje), pioneros en España. “Dentro de la IA es algo que no todos saben hacer. Solo unos centros lo hacemos y evaluamos”, desarrolla. El HiTZ acaba de presentar el mayor modelo de lenguaje hecho en España, que es en euskera y basado en Llama, de Meta, que es de código abierto. Además, es difícil mantener el talento: “Motivamos a los jóvenes diciéndoles que esto es un centro de referencia, pero muchos igualmente se van a Google, Amazon, Cohere o montan sus empresas”, añade.

Todo esto no implica necesariamente que este esfuerzo conjunto vaya a producir un modelo de última generación. Es más probable que sea de una generación anterior: “Es factible pensar que antes de que acabe 2024 tendremos un modelo GPT-3 en castellano y el resto de lenguas cooficiales disponibles para empresas”, dice Martorell. ¿Y para cuándo GPT-4, que es el estándar ahora para ChatGPT? “Tan pronto como se pueda en función de los datos que recojamos y la capacidad del MareNostrum 5 nos permita”, añade.

3. Mucho béisbol, menos fútbol

Modelos como ChatGPT ya son multilingües: tiene poco sentido no añadir lenguas al entrenarlos, cuando las aprenden y las usan para traducir. Pero una lengua no son solo sus palabras, también es el contexto y la cultura. Ahí caben un montón de variables: tradición, ocio, cocina, deportes. Todo ese contexto no es solo la cultura, también el significado de refranes o giros idiomáticos que solo tienen sentido en una lengua, que son intraducibles.

Con el español, una lengua muy representada en internet, es relativamente fácil conseguir una buena calidad. Incluso con el catalán. Pero los millones de textos (llamados “corpus”) que se usan para entrenar el gallego o el euskera son mucho más pequeños, explica Rigau: “En euskera tenemos 4.000 millones de tokens [pequeños bloques de texto que usan las máquinas para entender el lenguaje]. El catalán tendrá unos 20.000 millones, cinco veces más. El español tendrá 250.000, diez veces más que el catalán. Es todo lo que hemos podido enganchar. Por mucho que rasquemos, la escala es esta”.

Un objetivo de este modelo fundacional es lograr un corpus mejor en las cuatro lenguas cooficiales. Cada institución intenta cerrar acuerdos con organismos que han creado textos en sus lenguas, desde parlamentos autonómicos a televisiones: “Para nuestras lenguas hemos hecho una búsqueda más curada de contenidos y un esfuerzo para reunir datos no conflictivos: la Wikipedia, claro, pero también datos de parlamentos autonómicos, de TV3, Dialnet o el CSIC nos han permitido recoger revistas en abierto, también datos de Fundación Elcano y me dejo muchos. Para el catalán, por ejemplo, tenemos datos de Òmnium, Vilaweb, cada grupo hace un esfuerzo dentro de su lengua para conseguir datos curados”, afirma Villegas. Con el gallego y el euskera se ha hecho una labor similar.

Todo este esfuerzo no estaría solo destinado a que el modelo responda en un gallego más correcto, sino a que sepa mejor de qué habla cuando se refiere a asuntos locales: “Un modelo de una gran empresa sabrá mucho de la Superbowl y será muy anglocéntrico”, dice Villegas. “No es solo desde el punto de vista de la lengua, sino del conocimiento implícito, del modelo del mundo”, añade. El modelo español debe tener menos béisbol y hamburguesas y más fútbol y paellas.

Cuando se cuenta con un mayor corpus en una lengua, tiene más información del mundo complejo que se describe en ese idioma. Por eso, cuando se trata de analizar expedientes clínicos escritos por médicos o sentencias jurídicas, es indispensable que estén entrenados y sintonizados con la lengua y contenido locales o perderían demasiados matices.

4. Es una apuesta estratégica

Junto a las necesidades lingüísticas y culturales de un país como España, está el intento de hacer una apuesta tecnológica. “No es solo una cuestión sentimental, histórica o cultural”, dice Senén Barro, catedrático de la Universidad de Santiago de Compostela y director de su Centro Singular de Investigación en Tecnoloxías Intelixentes. “Es estratégica. Si somos capaces de crear una industria potente en España de empresas en tecnologías lingüísticas, no solo podrán trabajar para el autoconsumo sino para el mundo, por ejemplo, en países multilingües como este. Es un mercado brutal. Se estima que al final de la década la economía en torno a las tecnologías lingüísticas puede rondar los 100.000 millones. Es una cantidad enorme”, añade.

Sería raro que muchos de los datos médicos o legales que necesitan usar administraciones o empresas españolas estuvieran a disposición de tecnología estadounidense o china. “Debe ser también por soberanía, se trata de dar tejido a la industria”, dice Rigau. “¿Dependeremos siempre de fuera? Hay muchos datos sensibles”.

5. El problema del copyright persiste

La dificultad inicial de entrenar un modelo así es lograr miles de millones de textos. El lugar más obvio es la web. La organización Common Crawl recoge periódicamente todo lo que hay en internet. Su objetivo es loable, que ese material esté accesible para todos, no solo las grandes tecnológicas: “Pequeñas empresas o incluso individuos pueden acceder a datos de rastreo de alta calidad que antes solo estaban disponibles para las grandes corporaciones”, dicen en su página. De ahí saldrán también los datos para este modelo hecho desde España.

En los archivos de Common Crawl está toda la web: también gráficos, pornografía, memes absurdos y, con toda probabilidad, material bajo copyright, con derechos. Los encargados del modelo limpian al entrenarlo todas las referencias sesgadas, tóxicas o lascivas, pero el material con derechos es más delicado: “Eso de que no haya problemas de copyright es complicado. Cogemos descargas de Common Crawl, que en EE UU está permitido bajo el amparo del fair use”, dice Villegas. Ese “uso justo” permite usar material con derechos para unos supuestos determinados, como educación, citar en informaciones o academia. Su uso para entrenar modelos de IA está aún en disputa legal.

“Estos modelos no hacen copias”, explica Rigau. “Es algo muy complejo, es como si una persona leyera mucho, 20 millones de libros. ¿Qué recuerdas de ellos? Esto es lo mismo. Lee, no copia. La memoria de la máquina tampoco es tan buena: se inventa cosas, la imagina. Si le dices el principio de El Quijote no sabrá seguir. Sabrá cosas, recordará canciones como cualquier persona. Memoriza algo, pero no genera una obra completa de nada”, asegura.

Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.