Evaluador autodidacta de Meta: Entrena LLMs sin datos humanos

Los investigadores de Meta FAIR han presentado una nueva herramienta denominada Self-Taught Evaluator, que aprovecha los datos sintéticos (no creados por humanos que imitan datos del mundo real) para capacitar a los evaluadores de grandes modelos de lenguaje (LLM, por sus siglas en inglés) sin necesidad de anotaciones humanas.

El método tiene algunas salvedades, pero podría mejorar significativamente la eficiencia y la escalabilidad de la evaluación de LLM para las empresas que desean crear modelos personalizados.

Contexto y desafíos de la evaluación de los LLM

Los LLM, como Gemini, GPT-4o y Llama, entre otros, se utilizan a menudo como evaluadores, y desempeñan un papel crucial a la hora de adaptar otros modelos a las preferencias humanas o mejorar su propio rendimiento durante el entrenamiento.

Esto es especialmente importante para tareas en las que son posibles múltiples respuestas válidas, como suele suceder con las instrucciones creativas o complejas.

Sin embargo, la formación de evaluadores de LLM precisos suele depender de una gran cantidad de datos anotados por personas, cuya adquisición es costosa y lleva mucho tiempo.

Este obstáculo se vuelve contraproducente y obstaculiza el rápido desarrollo y la implementación de nuevas aplicaciones basadas en LLM.

El Self-Taught Evaluator, o evaluador autodidacta, aborda este desafío mediante un enfoque de capacitación que elimina la necesidad de datos etiquetados por humanos. Se basa en el concepto de LLM como juez, que proporciona al modelo una entrada, dos posibles respuestas y una indicación de evaluación.

El modelo LLM como juez tiene como objetivo determinar qué respuesta es mejor, al generar una cadena de razonamiento que llegue al resultado correcto.

El evaluador autodidacta comienza con un LLM inicial y una gran colección de instrucciones escritas por humanos sin etiquetar, como las que se encuentran comúnmente en los sistemas de producción.

En primer lugar, el modelo selecciona un conjunto de instrucciones del conjunto de instrucciones no seleccionadas. Para cada instrucción, el evaluador autodidacta genera un par de respuestas del modelo: una designada como “seleccionada” y la otra como “rechazada”. La respuesta elegida está diseñada para ser de mayor calidad que la respuesta rechazada.

Luego, el modelo se entrena de forma iterativa. En cada iteración, se toman muestras de múltiples juicios y trazas de razonamiento de LLM como juez para cada ejemplo. Si el modelo produce una cadena de razonamiento correcta, el ejemplo se agrega al conjunto de entrenamiento.

El conjunto de datos final se compone de una serie de ejemplos que comprenden la instrucción de entrada, un par de respuestas verdaderas y falsas y una cadena de juicios. Luego, el modelo se ajusta con precisión en este nuevo conjunto de entrenamiento, lo que da como resultado un modelo actualizado para la siguiente iteración.

Poniendo a prueba al Self-Taught Evaluator de Meta

Los investigadores inicializaron el evaluador autodidacta de Meta con el modelo Llama 3-70B-Instruct. Utilizaron el conjunto de datos WildChat, que contiene un gran conjunto de instrucciones escritas por humanos, y seleccionaron más de 20.000 ejemplos en la categoría de razonamiento.

También probaron otros conjuntos de datos y tareas, incluidos problemas de codificación y matemáticas con palabras. Dejaron que el proceso de autoaprendizaje generase todas las respuestas y el conjunto de entrenamiento sin ninguna interferencia humana.

Sus experimentos demostraron que el Self-Taught Evaluator mejoró significativamente la precisión del modelo base en el popular punto de referencia RewardBench, al incrementarla del 75,4 % al 88,7 % después de cinco iteraciones sin ninguna anotación humana.

Este rendimiento se acerca, y en algunos casos supera, a los modelos entrenados con datos etiquetados por humanos, incluso superando algunos modelos de frontera privados.

Entrenamiento LLM

Implicaciones para las empresas

Esta investigación contribuye a una tendencia creciente de técnicas que utilizan los LLM en bucles automatizados para la automejora.

Estas técnicas pueden reducir significativamente el esfuerzo manual necesario para crear LLMs de alto rendimiento, allanando el camino para un desarrollo y una implementación más eficientes y escalables de aplicaciones impulsadas por IA.

El Self-Taught Evaluator puede beneficiar a las empresas que poseen grandes cantidades de datos corporativos sin etiquetar y desean ajustar los modelos con sus propios datos sin necesidad de realizar una anotación y evaluación manual exhaustiva.

También puede proporcionar pistas sobre cómo Meta utilizará su rico conjunto de datos generados por el usuario sin etiquetar para entrenar y mejorar sus modelos actuales y futuros.

Continúa leyendo: ¿De qué forma contribuye el neuromarketing a las campañas de mercadeo?

Se parte de nuestra comunidad en nuestras redes sociales

Instagram

YouTube

TikTok