AI

Easy Dataset: Framework de Código Abierto para Sintetizar Datos de Ajuste Fino de LLM

Easy Dataset es un framework basado en GUI de código abierto para crear conjuntos de datos de ajuste fino de alta calidad a partir de documentos no estructurados como PDFs, Markdown y DOCX.

Easy Dataset: Framework de Código Abierto para Sintetizar Datos de Ajuste Fino de LLM

El ajuste fino de grandes modelos de lenguaje se ha vuelto esencial para las organizaciones que necesitan rendimiento AI específico de dominio, pero el proceso siempre ha estado limitado por un recurso crítico: datos de entrenamiento de alta calidad. Crear conjuntos de datos de ajuste por instrucciones manualmente es caro, lento y requiere experiencia en el dominio que a menudo escasea. Easy Dataset, un framework de código abierto de ConardLi, aborda directamente este cuello de botella proporcionando un sistema basado en GUI para sintetizar conjuntos de datos de ajuste fino a partir de documentos no estructurados.

La idea central es elegantemente simple: toma tus documentos existentes – PDFs, archivos Markdown, documentos DOCX – y usa un LLM para generar diversos pares de pregunta-respuesta a partir del contenido. Easy Dataset maneja todo el pipeline, desde el análisis y fragmentación de documentos hasta la síntesis de datos impulsada por LLM, el filtrado de calidad y la exportación a formatos estándar de ajuste fino.

Lo que distingue a Easy Dataset de los scripts ad-hoc de generación de datos es su enfoque estructurado. El framework soporta diversidad de prompts impulsada por personas, niveles de dificultad configurables, filtrado de calidad a través de verificaciones de autoconsistencia y una interfaz web limpia que hace que todo el proceso sea accesible para no programadores.


¿Cómo Funciona Easy Dataset?

El pipeline de síntesis de datos procede a través de varias etapas, cada una configurable a través de la interfaz web.

Etapa del PipelinePropósitoOpciones de Configuración
Análisis de DocumentosExtraer texto de archivos fuenteAlternar OCR, detección de idioma, extracción de tablas
FragmentaciónDividir documentos en secciones manejablesTamaño de fragmento, superposición, estrategia (párrafo/sección/semántica)
Selección de PersonaDefinir personas AI para salidas diversasPersonas integradas o definiciones de persona personalizadas
Síntesis de DatosGenerar pares Q&A a partir de fragmentosPreguntas de ejemplo, formato de salida, número de pares
Filtrado de CalidadEliminar entradas de baja calidad o duplicadasDeduplicación, reglas heurísticas, LLM como juez
Exportación de FormatoSalida a formatos de ajuste finoJSONL, CSV, Parquet, Hugging Face Hub

¿Qué Formatos de Documentos Soporta Easy Dataset?

Easy Dataset soporta una amplia gama de formatos de entrada, facilitando el trabajo con bases de conocimiento existentes.

FormatoExtensión de ArchivoNotas del Analizador
PDF.pdfSoporte multi-columna, extracción de tablas, OCR
Markdown.mdPreserva encabezados, listas, bloques de código
Word.docxPreserva formato e imágenes incrustadas
Texto Plano.txtExtracción de texto simple
CSV/JSON.csv, .json, .jsonlSoporte de datos estructurados
HTML.html, .htmExtracción de contenido web
EPUB.epubSoporte de formato de libro electrónico
LaTeX.texSoporte de artículos académicos
PowerPoint.pptxExtracción de contenido de diapositivas

El motor de fragmentación presta cuidadosa atención a la preservación del contexto. Cuando un fragmento cruza un límite semántico (como un encabezado de sección), incluye el contexto del encabezado para mantener la coherencia en los pares Q&A generados.


¿Cómo Funcionan los Prompts Basados en Personas?

El sistema de personas es una de las características más potentes de Easy Dataset. En lugar de generar todas las preguntas desde la misma perspectiva, defines múltiples personas que cada una genera preguntas desde su punto de vista único.

PersonaPerspectivaEjemplo de Pregunta Generada
PrincipianteSimplificada, conceptual“¿Cuál es el propósito principal de este sistema?”
PracticanteAplicada, práctica“¿Cómo configuro el mecanismo de reintento?”
ExpertoAvanzada, analítica“¿Cuáles son las compensaciones entre estas dos arquitecturas?”
RevisorCrítica, comparativa“¿Qué casos extremos potenciales no se abordan?”

Esta diversidad es crítica para producir conjuntos de datos de ajuste fino robustos. Un modelo entrenado con datos de una sola perspectiva tiende a sobreajustarse a ese estilo, mientras que los datos multi-persona producen modelos que se generalizan mejor en diferentes casos de uso.


¿Qué Formatos de Exportación Soporta Easy Dataset?

Una vez que el conjunto de datos está sintetizado y filtrado por calidad, Easy Dataset soporta múltiples opciones de exportación.

Formato de ExportaciónCaso de Uso ComúnEstructura
JSONL (ShareGPT)Ajuste fino de modelo de chatconversaciones con roles y turnos
JSONL (Alpaca)Ajuste por instruccionesinstruction, input, output
JSONL (OpenAI)API de ajuste fino de OpenAIformato de array messages
CSVProcesamiento simplecolumnas question, answer, context
ParquetEntrenamiento a gran escalaFormato columnar, comprimido
Hugging Face HubPublicación directaSubida automática al repositorio de datasets

¿Cuál es el Proceso de Filtrado de Calidad?

Easy Dataset incluye garantía de calidad integrada que se ejecuta después de la síntesis de datos. El sistema de filtrado utiliza tanto heurísticas automatizadas como evaluación basada en LLM.

Tipo de FiltroMétodoCaptura
DeduplicaciónDetección de similitud semánticaPares Q&A casi duplicados
Filtro de longitudUmbrales de longitud mínima y máximaRespuestas demasiado cortas o largas
AutoconsistenciaLLM genera respuesta dos veces, comparaContenido alucinado o inconsistente
Verificación de relevanciaSimilitud de coseno entre pregunta y fragmentoGeneraciones fuera de tema
Reglas heurísticasCoincidencia de patrones configurableContenido tóxico, PII, problemas de formato

El pipeline predeterminado típicamente filtra entre el 5-15% de los pares generados, dependiendo de la calidad del documento fuente y el LLM utilizado para la síntesis.


Preguntas Frecuentes

¿Qué es Easy Dataset? Easy Dataset es un framework basado en GUI de código abierto creado por ConardLi para crear conjuntos de datos de ajuste fino de alta calidad a partir de documentos no estructurados. Procesa PDFs, Markdown, DOCX y otros formatos, utilizando síntesis de datos impulsada por LLM con prompts basados en personas para generar ejemplos de entrenamiento diversos. Soporta múltiples formatos de exportación y está diseñado tanto para ajuste por instrucciones como para alineación de preferencias.

¿Qué formatos de documentos soporta Easy Dataset? Easy Dataset soporta PDF, Markdown (.md), DOCX (.docx), TXT, CSV, JSON, JSONL, HTML, EPUB, LaTeX (.tex) y PowerPoint (.pptx). Los documentos se analizan en fragmentos estructurados que preservan el contexto, el formato y las relaciones jerárquicas. El framework maneja PDFs de múltiples columnas, tablas e imágenes incrustadas a través de la integración OCR.

¿Cómo funcionan los prompts basados en personas en Easy Dataset? Los prompts basados en personas utilizan personas AI configurables para generar diversos pares de pregunta-respuesta a partir del mismo material fuente. Por ejemplo, una persona ‘principiante’ puede generar preguntas de definición simples mientras que una persona ’experto’ genera preguntas analíticas complejas. Este enfoque produce conjuntos de datos con variabilidad natural que mejora significativamente la generalización del modelo downstream.

¿Qué formatos de exportación soporta Easy Dataset? Easy Dataset exporta a los formatos de ajuste fino más comunes incluyendo JSONL (estilo ShareGPT, estilo Alpaca, estilo OpenAI), CSV, Parquet y formato de Hugging Face Datasets. También soporta exportación directa a Hugging Face Hub. Se pueden definir plantillas de salida personalizadas a través del sistema de plugins.

¿En qué artículo de investigación se basa Easy Dataset? Easy Dataset se fundamenta en el artículo ‘Large Language Models are Effective Dataset Generators’ que demuestra que los datos de entrenamiento sintetizados por LLM pueden igualar o superar los datos curados por humanos para el ajuste fino. El framework implementa los hallazgos clave del artículo, incluyendo diversidad impulsada por personas, calibración de dificultad y filtrado de calidad a través de verificaciones de autoconsistencia y validación heurística.


Lecturas Adicionales

TAG
CATEGORIES