IA

LlamaFactory: Framework de Codigo Abierto para Ajuste Fino de LLMs

LlamaFactory es un popular framework de codigo abierto para el ajuste fino eficiente de LLMs, compatible con LoRA, QLoRA, entrenamiento de parametros completos y cientos de modelos.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LlamaFactory: Framework de Codigo Abierto para Ajuste Fino de LLMs

El ajuste fino de modelos de lenguaje grandes alguna vez fue un proceso complejo y con uso intensivo de recursos, reservado para organizaciones con grandes clusters de GPU. LlamaFactory ha democratizado esta capacidad, proporcionando un framework accesible y rico en funciones que hace que el ajuste fino de cientos de arquitecturas de LLM sea practico en hardware de consumo.

Creado por la comunidad de investigacion (hiyouga/LlamaFactory), este framework ha crecido hasta convertirse en una de las herramientas de ajuste fino de codigo abierto mas populares, soportando todo, desde un simple ajuste LoRA en una sola GPU hasta el entrenamiento distribuido completo a traves de multiples nodos. Abstrae la complejidad de la infraestructura de entrenamiento, permitiendo a los profesionales centrarse en los datos, la configuracion y la evaluacion.

Lo que hace particularmente valioso a LlamaFactory es su soporte completo para metodos de ajuste fino de parametros eficientes. El ajuste fino completo de un modelo de 70B requiere mas de 140GB de memoria GPU. Usando QLoRA en LlamaFactory, la misma tarea se puede realizar en una sola GPU de 24GB con una perdida minima de calidad, una reduccion de 6x en los requisitos de hardware.


Como Funciona la Arquitectura de Entrenamiento de LlamaFactory?

LlamaFactory proporciona una tuberia de entrenamiento unificada que soporta multiples estrategias de ajuste fino.

graph LR
    A[Modelo Base\nHugging Face / Local] --> B[Cuantizacion\nBitsandbytes / GPTQ / AWQ]
    B --> C[Configuracion del Adaptador\nLoRA / QLoRA / DoRA / Completo]
    C --> D[Configuracion de Entrenamiento\nDatos + Hiperparametros]
    D --> E[Bucle de Entrenamiento\nSFT / RLHF / DPO / KTO]
    E --> F[Optimizaciones de Entrenamiento\nAtencion Flash, Punto de Control de Gradiente]
    F --> G[Salida\nModelo Fusionado / Pesos del Adaptador]
    G --> H[Exportacion\nHugging Face, GGUF, Ollama]

La tuberia maneja el preprocesamiento de datos, la tokenizacion, la orquestacion del entrenamiento y la exportacion del modelo en un flujo de trabajo unificado.


Que Metodos de Ajuste Fino Puedes Usar con LlamaFactory?

La eleccion del metodo de ajuste fino determina las caracteristicas de memoria, velocidad y calidad del entrenamiento.

MetodoMemoria (7B)Memoria (70B)Velocidad de EntrenamientoCalidad vs FT Completo
FT Completo56 GB560 GB1x (referencia)Identica
LoRA (rango=16)16 GB160 GB1.2x mas rapido~99%
QLoRA (4-bit)8 GB48 GB1.5x mas lento~97%
DoRA17 GB162 GBSimilar a LoRA~99.5%
GaLore20 GB180 GBLigeramente mas lento~98%

La capacidad de ajustar finamente un modelo de 70B en 48GB de memoria (QLoRA) democratiza el acceso a la personalizacion de modelos a gran escala.


Que Algoritmos de Entrenamiento Soporta LlamaFactory?

Mas alla del ajuste fino de parametros eficiente, LlamaFactory soporta el espectro completo de objetivos de entrenamiento de LLM.

Algoritmo de EntrenamientoPropositoDatos Requeridos
Supervised FT (SFT)Seguimiento de instruccionesPares instruccion-respuesta
Reward ModelingPrediccion de preferenciasPares elegido-rechazado
PPOAlineamiento RLHFModelo de recompensa + prompts
DPOOptimizacion directa de preferenciasPares de preferencia
KTOOptimizacion de preferencias no emparejadasRespuestas buenas/malas
ORPOSFT + alineamiento combinadosPares de preferencia

Este conjunto completo de algoritmos hace que LlamaFactory sea adecuado para cada etapa de la personalizacion de LLM, desde el ajuste inicial de instrucciones hasta el alineamiento final de preferencias.


Como se Usa la Interfaz Web de LlamaFactory?

La interfaz web basada en Gradio de LlamaFactory proporciona una alternativa visual a la configuracion de linea de comandos.

PestanaPropositoConfiguracion Clave
ModeloSeleccionar modelo base y cuantizacionNombre del modelo, precision, directorio de cache
DatosElegir conjunto de datos de entrenamientoNombre del dataset, formato, proporcion de division
TrainConfigurar hiperparametrosTasa de aprendizaje, tamano de lote, epocas
ConfigConfiguracion avanzadaMetodo, configuracion del adaptador, optimizaciones
ExportGuardar el modelo entrenadoSeleccion de formato, nivel de cuantizacion

La interfaz web esta disenada para ser lo suficientemente intuitiva para principiantes mientras expone toda la profundidad de las opciones de configuracion que los usuarios avanzados requieren.


Preguntas Frecuentes

Que es LlamaFactory? LlamaFactory es un framework de codigo abierto para el ajuste fino eficiente de modelos de lenguaje grandes. Soporta una amplia gama de metodos de entrenamiento, incluyendo ajuste fino de parametros completos, LoRA, QLoRA, DoRA y GaLore, y es compatible con cientos de arquitecturas de modelo, incluyendo Llama, Mistral, Qwen, Gemma, Falcon y DeepSeek.

Que metodos de ajuste fino soporta LlamaFactory? LlamaFactory soporta ajuste fino de parametros completos, LoRA (Adaptacion de Bajo Rango), QLoRA (LoRA Cuantizado), DoRA (Adaptacion de Bajo Rango Descompuesta en Pesos), GaLore (Proyeccion de Bajo Rango de Gradiente) y varios enfoques hibridos. Este rango permite a los usuarios elegir la compensacion optima entre calidad de entrenamiento, uso de memoria y velocidad.

Que funciones de entrenamiento incluye LlamaFactory? LlamaFactory proporciona ajuste fino supervisado (SFT), modelado de recompensa, entrenamiento PPO, DPO (Optimizacion Directa de Preferencias), KTO y metodos de alineamiento ORPO. Incluye preprocesamiento de datos, aprendizaje curricular, atencion flash, entrenamiento de precision mixta, punto de control de gradiente y registro completo de experimentos.

Puedo ajustar finamente un modelo con memoria GPU limitada? Si, LlamaFactory esta disenado para un ajuste fino accesible. Usando QLoRA con cuantizacion de 4-bit, puedes ajustar finamente un modelo de 7B en 8GB de memoria GPU, 13B en 12GB y 70B en 24GB. Las tecnicas de optimizacion de memoria del framework hacen que el ajuste fino de modelos grandes sea practico en GPUs de consumo.

Como interactuan los usuarios con LlamaFactory? LlamaFactory proporciona multiples interfaces: una interfaz web (basada en Gradio para configuracion visual y entrenamiento), una interfaz de linea de comandos para scripting y automatizacion, y una API de Python para integracion en tuberias de entrenamiento personalizadas. Todas las interfaces soportan el mismo conjunto de funciones y opciones de configuracion.


Lecturas Adicionales

TAG
CATEGORIES