Easy Dataset: Framework de Código Abierto para Sintetizar Datos de Ajuste Fino de LLM

El ajuste fino de grandes modelos de lenguaje se ha vuelto esencial para las organizaciones que necesitan rendimiento AI específico de dominio, pero el proceso siempre ha estado limitado por un recurso crítico: datos de entrenamiento de alta calidad. Crear conjuntos de datos de ajuste por instrucciones manualmente es caro, lento y requiere experiencia en el dominio que a menudo escasea. Easy Dataset, un framework de código abierto de ConardLi, aborda directamente este cuello de botella proporcionando un sistema basado en GUI para sintetizar conjuntos de datos de ajuste fino a partir de documentos no estructurados.

La idea central es elegantemente simple: toma tus documentos existentes – PDFs, archivos Markdown, documentos DOCX – y usa un LLM para generar diversos pares de pregunta-respuesta a partir del contenido. Easy Dataset maneja todo el pipeline, desde el análisis y fragmentación de documentos hasta la síntesis de datos impulsada por LLM, el filtrado de calidad y la exportación a formatos estándar de ajuste fino.

Lo que distingue a Easy Dataset de los scripts ad-hoc de generación de datos es su enfoque estructurado. El framework soporta diversidad de prompts impulsada por personas, niveles de dificultad configurables, filtrado de calidad a través de verificaciones de autoconsistencia y una interfaz web limpia que hace que todo el proceso sea accesible para no programadores.

¿Cómo Funciona Easy Dataset?

El pipeline de síntesis de datos procede a través de varias etapas, cada una configurable a través de la interfaz web.

graph TD
    A[Subir Documentos<br>PDF, MD, DOCX, TXT] --> B[Analizador de Documentos]
    B --> C[Fragmentación y<br>Preservación de Contexto]
    C --> D[Selección de Persona<br>Personas Configurables]
    D --> E[Síntesis de Datos LLM<br>Generación de Q&A]
    E --> F[Filtrado de Calidad<br>Autoconsistencia y Heurísticas]
    F --> G[Exportar<br>JSONL, CSV, Parquet]
    G --> H[Ajustar Fino<br>Tu LLM]

Etapa del Pipeline	Propósito	Opciones de Configuración
Análisis de Documentos	Extraer texto de archivos fuente	Alternar OCR, detección de idioma, extracción de tablas
Fragmentación	Dividir documentos en secciones manejables	Tamaño de fragmento, superposición, estrategia (párrafo/sección/semántica)
Selección de Persona	Definir personas AI para salidas diversas	Personas integradas o definiciones de persona personalizadas
Síntesis de Datos	Generar pares Q&A a partir de fragmentos	Preguntas de ejemplo, formato de salida, número de pares
Filtrado de Calidad	Eliminar entradas de baja calidad o duplicadas	Deduplicación, reglas heurísticas, LLM como juez
Exportación de Formato	Salida a formatos de ajuste fino	JSONL, CSV, Parquet, Hugging Face Hub

¿Qué Formatos de Documentos Soporta Easy Dataset?

Easy Dataset soporta una amplia gama de formatos de entrada, facilitando el trabajo con bases de conocimiento existentes.

Formato	Extensión de Archivo	Notas del Analizador
PDF	.pdf	Soporte multi-columna, extracción de tablas, OCR
Markdown	.md	Preserva encabezados, listas, bloques de código
Word	.docx	Preserva formato e imágenes incrustadas
Texto Plano	.txt	Extracción de texto simple
CSV/JSON	.csv, .json, .jsonl	Soporte de datos estructurados
HTML	.html, .htm	Extracción de contenido web
EPUB	.epub	Soporte de formato de libro electrónico
LaTeX	.tex	Soporte de artículos académicos
PowerPoint	.pptx	Extracción de contenido de diapositivas

El motor de fragmentación presta cuidadosa atención a la preservación del contexto. Cuando un fragmento cruza un límite semántico (como un encabezado de sección), incluye el contexto del encabezado para mantener la coherencia en los pares Q&A generados.

¿Cómo Funcionan los Prompts Basados en Personas?

El sistema de personas es una de las características más potentes de Easy Dataset. En lugar de generar todas las preguntas desde la misma perspectiva, defines múltiples personas que cada una genera preguntas desde su punto de vista único.

Persona	Perspectiva	Ejemplo de Pregunta Generada
Principiante	Simplificada, conceptual	“¿Cuál es el propósito principal de este sistema?”
Practicante	Aplicada, práctica	“¿Cómo configuro el mecanismo de reintento?”
Experto	Avanzada, analítica	“¿Cuáles son las compensaciones entre estas dos arquitecturas?”
Revisor	Crítica, comparativa	“¿Qué casos extremos potenciales no se abordan?”

Esta diversidad es crítica para producir conjuntos de datos de ajuste fino robustos. Un modelo entrenado con datos de una sola perspectiva tiende a sobreajustarse a ese estilo, mientras que los datos multi-persona producen modelos que se generalizan mejor en diferentes casos de uso.

¿Qué Formatos de Exportación Soporta Easy Dataset?

Una vez que el conjunto de datos está sintetizado y filtrado por calidad, Easy Dataset soporta múltiples opciones de exportación.

Formato de Exportación	Caso de Uso Común	Estructura
JSONL (ShareGPT)	Ajuste fino de modelo de chat	conversaciones con roles y turnos
JSONL (Alpaca)	Ajuste por instrucciones	instruction, input, output
JSONL (OpenAI)	API de ajuste fino de OpenAI	formato de array messages
CSV	Procesamiento simple	columnas question, answer, context
Parquet	Entrenamiento a gran escala	Formato columnar, comprimido
Hugging Face Hub	Publicación directa	Subida automática al repositorio de datasets

¿Cuál es el Proceso de Filtrado de Calidad?

Easy Dataset incluye garantía de calidad integrada que se ejecuta después de la síntesis de datos. El sistema de filtrado utiliza tanto heurísticas automatizadas como evaluación basada en LLM.

Tipo de Filtro	Método	Captura
Deduplicación	Detección de similitud semántica	Pares Q&A casi duplicados
Filtro de longitud	Umbrales de longitud mínima y máxima	Respuestas demasiado cortas o largas
Autoconsistencia	LLM genera respuesta dos veces, compara	Contenido alucinado o inconsistente
Verificación de relevancia	Similitud de coseno entre pregunta y fragmento	Generaciones fuera de tema
Reglas heurísticas	Coincidencia de patrones configurable	Contenido tóxico, PII, problemas de formato

El pipeline predeterminado típicamente filtra entre el 5-15% de los pares generados, dependiendo de la calidad del documento fuente y el LLM utilizado para la síntesis.

Preguntas Frecuentes

¿Qué es Easy Dataset? Easy Dataset es un framework basado en GUI de código abierto creado por ConardLi para crear conjuntos de datos de ajuste fino de alta calidad a partir de documentos no estructurados. Procesa PDFs, Markdown, DOCX y otros formatos, utilizando síntesis de datos impulsada por LLM con prompts basados en personas para generar ejemplos de entrenamiento diversos. Soporta múltiples formatos de exportación y está diseñado tanto para ajuste por instrucciones como para alineación de preferencias.

¿Qué formatos de documentos soporta Easy Dataset? Easy Dataset soporta PDF, Markdown (.md), DOCX (.docx), TXT, CSV, JSON, JSONL, HTML, EPUB, LaTeX (.tex) y PowerPoint (.pptx). Los documentos se analizan en fragmentos estructurados que preservan el contexto, el formato y las relaciones jerárquicas. El framework maneja PDFs de múltiples columnas, tablas e imágenes incrustadas a través de la integración OCR.

¿Cómo funcionan los prompts basados en personas en Easy Dataset? Los prompts basados en personas utilizan personas AI configurables para generar diversos pares de pregunta-respuesta a partir del mismo material fuente. Por ejemplo, una persona ‘principiante’ puede generar preguntas de definición simples mientras que una persona ’experto’ genera preguntas analíticas complejas. Este enfoque produce conjuntos de datos con variabilidad natural que mejora significativamente la generalización del modelo downstream.

¿Qué formatos de exportación soporta Easy Dataset? Easy Dataset exporta a los formatos de ajuste fino más comunes incluyendo JSONL (estilo ShareGPT, estilo Alpaca, estilo OpenAI), CSV, Parquet y formato de Hugging Face Datasets. También soporta exportación directa a Hugging Face Hub. Se pueden definir plantillas de salida personalizadas a través del sistema de plugins.

¿En qué artículo de investigación se basa Easy Dataset? Easy Dataset se fundamenta en el artículo ‘Large Language Models are Effective Dataset Generators’ que demuestra que los datos de entrenamiento sintetizados por LLM pueden igualar o superar los datos curados por humanos para el ajuste fino. El framework implementa los hallazgos clave del artículo, incluyendo diversidad impulsada por personas, calibración de dificultad y filtrado de calidad a través de verificaciones de autoconsistencia y validación heurística.

Lecturas Adicionales

Repositorio GitHub de Easy Dataset – Código fuente, issues y ejemplos de uso
Documentación de Easy Dataset – Guías de configuración y referencia de configuración
Artículo Large Language Models are Effective Dataset Generators – El artículo de investigación subyacente al enfoque del framework
Guía de Formato Hugging Face Datasets – Documentación de formato de exportación para ajuste fino downstream