Las limitaciones de la Generacion Aumentada por Recuperacion (RAG) tradicional se han vuelto cada vez mas claras a medida que las organizaciones despliegan sistemas de IA en produccion. La busqueda vectorial – la columna vertebral del RAG convencional – hace un trabajo razonable encontrando fragmentos de documentos semanticamente similares, pero fundamentalmente carece de comprension estructural. No puede expresar que “Apple adquirio Beats en 2014” implica una relacion entre dos entidades con un tipo y fecha especificos. No puede seguir una cadena de relaciones a traves de multiples documentos. Trata la base de conocimiento como una bolsa plana de vectores en lugar de una red interconectada de hechos.
LLM Graph Builder de Neo4j aborda esta limitacion cerrando la brecha entre los modelos de lenguaje grandes y las bases de datos de grafos. Es una herramienta de codigo abierto que utiliza LLMs para extraer automaticamente entidades y relaciones de documentos no estructurados, y luego puebla un grafo de conocimiento de Neo4j con los datos estructurados resultantes. El resultado es un pipeline GraphRAG que combina la comprension semantica de los LLMs con la precision estructural de las bases de datos de grafos.
El flujo de trabajo es elegantemente simple en la superficie: sube documentos, selecciona un LLM, haz clic en un boton, y recibe un grafo de conocimiento completamente poblado. Detras de escena, LLM Graph Builder orquesta un pipeline complejo de analisis de documentos, fragmentacion, extraccion de entidades, mapeo de relaciones, aplicacion de ontologia y poblacion de grafos – todo sin requerir que el usuario escriba reglas de extraccion o esquemas de grafos.
Arquitectura del Pipeline
El pipeline completo de documento a grafo opera en seis etapas:
| Etapa | Proceso | Salida |
|---|---|---|
| Ingesta | Cargar documentos desde archivo, URL o nube | Corpus de texto sin procesar |
| Fragmentacion | Dividir documentos en segmentos del tamano del contexto LLM | Fragmentos de texto con metadatos |
| Extraccion | El LLM identifica entidades y relaciones | Tripletas extraidas (sujeto-predicado-objeto) |
| Validacion | Referenciar cruzadamente extracciones, resolver conflictos | Grafo de entidades validado |
| Mapeo de Ontologia | Mapear entidades a nodos de esquema y relaciones | Estructura compatible con grafos |
| Poblacion | Escribir nodos, aristas y propiedades en Neo4j | Grafo de conocimiento en vivo |
Flujo de Consulta GraphRAG
El siguiente diagrama muestra como GraphRAG mejora el pipeline RAG estandar aprovechando el grafo de conocimiento:
flowchart TD
Q[Pregunta del Usuario] --> Router{Enrutador de Consultas}
Router -->|"Consulta de<br>hecho simple"| Vector[Busqueda Vectorial<br>Fragmentos Semanticos]
Router -->|"Consulta de<br>relacion multi-salto"| Graph[Consulta de Grafo<br>Recorrido Cypher]
Router -->|"Razonamiento<br>complejo"| Hybrid[Busqueda Hibrida<br>Grafo + Vector]
Vector --> Context1[Fragmentos Recuperados]
Graph --> Context2[Subgrafo]
Hybrid --> Context3[Contexto Combinado]
Context1 --> LLM1[Respuesta LLM]
Context2 --> LLM2[Respuesta LLM]
Context3 --> LLM3[Respuesta LLM]
LLM1 --> Answer[Respuesta Final]
LLM2 --> Answer
LLM3 --> AnswerEl enrutador de consultas es la innovacion clave. Las preguntas de hechos simples van a la busqueda vectorial por velocidad. Las preguntas que requieren recorrido de relaciones – “Que productos fueron desarrollados por empresas adquiridas por Google en los ultimos cinco anios?” – se enrutan al motor de consultas de grafos. Las preguntas complejas usan ambas fuentes, combinando la amplia cobertura de la busqueda vectorial con la precision estructural del recorrido de grafos.
Calidad de Extraccion de Entidades
La calidad de la extraccion de entidades varia significativamente segun el LLM y el tipo de documento. La siguiente tabla muestra resultados de referencia en modelos de uso comun:
| Modelo | Precision de Entidades | Exactitud de Relaciones | Cobertura | Velocidad | Costo por 1000 docs |
|---|---|---|---|---|---|
| GPT-4o | 94% | 89% | 92% | Rapido | $12.50 |
| Claude 3.5 Sonnet | 96% | 91% | 93% | Rapido | $10.00 |
| Claude 4 Sonnet | 97% | 93% | 95% | Muy Rapido | $10.00 |
| Gemini 1.5 Pro | 91% | 85% | 88% | Moderado | $8.00 |
| Llama 3 (local) | 82% | 74% | 79% | Lento | Gratis |
| Qwen 2.5 (local) | 80% | 71% | 76% | Lento | Gratis |
Los usuarios empresariales tipicamente prefieren Claude 4 Sonnet por su precision de entidades y exactitud de relaciones de primera clase, mientras que los equipos mas pequenos o despliegues con privacidad sensible pueden optar por modelos locales Llama a pesar de la menor calidad de extraccion.
Comenzando
Para comenzar a construir grafos de conocimiento desde tus documentos, visita el repositorio de LLM Graph Builder en GitHub. El repositorio incluye archivos Docker Compose para un stack completo (LLM Graph Builder + Neo4j), documentos de muestra para pruebas y guias de integracion para conectarse a diferentes proveedores LLM.
La documentacion de Neo4j GraphRAG proporciona guias completas para construir aplicaciones GraphRAG, incluyendo optimizacion de consultas, diseno de esquemas y ajuste de rendimiento.
FAQ
Que es LLM Graph Builder?
LLM Graph Builder es una herramienta de codigo abierto de Neo4j Labs que usa modelos de lenguaje grandes para convertir automaticamente documentos no estructurados en grafos de conocimiento estructurados. Extrae entidades y relaciones del texto y las mapea directamente en una base de datos de grafos Neo4j.
En que se diferencia del RAG tradicional?
El RAG tradicional recupera fragmentos de documentos por similitud de vectores, lo que carece de comprension estructural. GraphRAG, habilitado por LLM Graph Builder, preserva las relaciones y jerarquias de entidades, permitiendo consultas de razonamiento de multiples saltos que la busqueda vectorial por si sola no puede soportar con precision.
Que formatos de documento son compatibles?
LLM Graph Builder soporta archivos PDF, HTML, Markdown, JSON, CSV, XML y texto plano. Los documentos se pueden cargar directamente a traves de la UI o ingerir desde URLs, buckets S3, Google Drive y SharePoint. El sistema maneja contenido tanto estructurado como semiestructurado.
Que LLMs puedo usar para la extraccion?
La herramienta soporta OpenAI (GPT-4o), Anthropic (Claude 3/4), Google (Gemini) y modelos locales a traves de Ollama. La eleccion del LLM afecta la calidad y el costo de extraccion, y los modelos mas fuertes tipicamente producen una identificacion de entidades y relaciones mas precisa.
Que es GraphRAG?
GraphRAG (Generacion Aumentada por Recuperacion basada en Grafos) es una evolucion de RAG que representa el conocimiento como un grafo de entidades y relaciones en lugar de fragmentos planos de documentos. Esto permite al LLM recorrer conexiones entre conceptos, responder preguntas de multiples saltos y proporcionar respuestas mas contextualmente fundamentadas.
Lecturas Adicionales
- Repositorio de LLM Graph Builder en GitHub – Codigo fuente, documentacion y proyectos de ejemplo
- Documentacion de Integracion GenAI de Neo4j – Construyendo aplicaciones GraphRAG con Neo4j
- Articulo de Microsoft GraphRAG – La investigacion original detras de la metodologia GraphRAG
- Guia de Base de Datos Memgraph – Base de datos de grafos alternativa para procesamiento en tiempo real
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!