ChatGPT llevó por primera vez los modelos grandes de lenguaje, conocidos también como LLM por sus siglas en inglés, a un público amplio.
En pocos meses, logró convertirse en la herramienta de consumo con mayor crecimiento de todos los tiempos.
Los LLM son modelos de aprendizaje automático. Permiten realizar diversas tareas de procesamiento del lenguaje natural, como generar y clasificar textos, responder a preguntas de forma conversacional o traducir texto de un idioma a otro.
Los grandes modelos de lenguaje son entrenados con grandes cantidades de datos, mediante aprendizaje autosupervisado pueden predecir el siguiente elemento de una frase dependiendo de su contexto.
Son como el mecánico de cabecera: ensayo y error, una y otra vez hasta que el modelo alcanza una precisión aceptable.
Como su objetivo es aprender la complejidad del lenguaje humano, están preentrenados con una gran cantidad de datos, como texto, imágenes, videos, voz y datos estructurados.
Cuantos más parámetros utilice un LLM, mejor será su rendimiento. Como tal, requieren importantes recursos en términos de datos, computación e ingeniería.
En su entrenamiento, los modelos de lenguaje grandes necesitan aprender tareas y funciones lingüísticas básicas.
Una vez que el modelo de aprendizaje ha sido entrenado previamente, se puede entrenar con datos nuevos específicos. El objetivo es perfeccionar sus capacidades para casos de uso específicos.
Esto se conoce como ajuste fino y esta fase de aprendizaje requiere menos datos y energía.
En 2018, OpenAI lanzó el modelo GPT-1, que fue mejorando en cada versión posterior. GPT-2 se presentó al año siguiente y demostró tener la capacidad de generar textos coherentes y largos.
En 2020, salió al mercado GPT-3, un modelo que ya tenía 175,000 millones de parámetros con los que podía llevar a cabo múltiples tareas de procesamiento de lenguaje natural a partir de pocos ejemplos. Rápidamente fue adoptado en aplicaciones como chatbots y para generar textos.
Los grandes modelos de lenguaje están detrás de la inteligencia artificial generativa (GenAI, por su acrónimo en inglés), como ChatGPT, y pueden generar texto basado en las entradas.
Elastic resume que un gran modelo de lenguaje se basa en un modelo de transformadores. “Funciona recibiendo una entrada, la codifica y luego la descodifica para producir una predicción de salida. pero hacer esto requiere entrenarse y ajustarse hasta poder realizar tareas específicas”.
El primer entrenamiento que tiene esta herramienta se hace con datos textuales de sitios como Wikipedia, GitHub, entre otros. Ahí procesan millones de palabras en un aprendizaje no supervisado, sin una instrucción específica.
Durante este proceso, el algoritmo de AI del modelo grande de lenguaje puede aprender lo que significan las palabras y las relaciones entre ellas. También aprende a distinguir el contexto. Por ejemplo, aprenderá a comprender si “derecha” significa “recta” o lo opuesto de “izquierda”.
El ajuste optimiza el rendimiento de tareas específicas. para que un modelo de lenguaje grande realice una tarea específica, como la traducción, debe ajustarse para dicha actividad en particular.