IA

LLM Graph Builder: El Pipeline RAG-a-Grafo de Neo4j

LLM Graph Builder convierte documentos no estructurados en grafos de conocimiento de Neo4j usando LLMs, permitiendo GraphRAG con extraccion de entidades y relaciones.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LLM Graph Builder: El Pipeline RAG-a-Grafo de Neo4j

Las limitaciones de la Generacion Aumentada por Recuperacion (RAG) tradicional se han vuelto cada vez mas claras a medida que las organizaciones despliegan sistemas de IA en produccion. La busqueda vectorial – la columna vertebral del RAG convencional – hace un trabajo razonable encontrando fragmentos de documentos semanticamente similares, pero fundamentalmente carece de comprension estructural. No puede expresar que “Apple adquirio Beats en 2014” implica una relacion entre dos entidades con un tipo y fecha especificos. No puede seguir una cadena de relaciones a traves de multiples documentos. Trata la base de conocimiento como una bolsa plana de vectores en lugar de una red interconectada de hechos.

LLM Graph Builder de Neo4j aborda esta limitacion cerrando la brecha entre los modelos de lenguaje grandes y las bases de datos de grafos. Es una herramienta de codigo abierto que utiliza LLMs para extraer automaticamente entidades y relaciones de documentos no estructurados, y luego puebla un grafo de conocimiento de Neo4j con los datos estructurados resultantes. El resultado es un pipeline GraphRAG que combina la comprension semantica de los LLMs con la precision estructural de las bases de datos de grafos.

El flujo de trabajo es elegantemente simple en la superficie: sube documentos, selecciona un LLM, haz clic en un boton, y recibe un grafo de conocimiento completamente poblado. Detras de escena, LLM Graph Builder orquesta un pipeline complejo de analisis de documentos, fragmentacion, extraccion de entidades, mapeo de relaciones, aplicacion de ontologia y poblacion de grafos – todo sin requerir que el usuario escriba reglas de extraccion o esquemas de grafos.

Arquitectura del Pipeline

El pipeline completo de documento a grafo opera en seis etapas:

EtapaProcesoSalida
IngestaCargar documentos desde archivo, URL o nubeCorpus de texto sin procesar
FragmentacionDividir documentos en segmentos del tamano del contexto LLMFragmentos de texto con metadatos
ExtraccionEl LLM identifica entidades y relacionesTripletas extraidas (sujeto-predicado-objeto)
ValidacionReferenciar cruzadamente extracciones, resolver conflictosGrafo de entidades validado
Mapeo de OntologiaMapear entidades a nodos de esquema y relacionesEstructura compatible con grafos
PoblacionEscribir nodos, aristas y propiedades en Neo4jGrafo de conocimiento en vivo

Flujo de Consulta GraphRAG

El siguiente diagrama muestra como GraphRAG mejora el pipeline RAG estandar aprovechando el grafo de conocimiento:

El enrutador de consultas es la innovacion clave. Las preguntas de hechos simples van a la busqueda vectorial por velocidad. Las preguntas que requieren recorrido de relaciones – “Que productos fueron desarrollados por empresas adquiridas por Google en los ultimos cinco anios?” – se enrutan al motor de consultas de grafos. Las preguntas complejas usan ambas fuentes, combinando la amplia cobertura de la busqueda vectorial con la precision estructural del recorrido de grafos.

Calidad de Extraccion de Entidades

La calidad de la extraccion de entidades varia significativamente segun el LLM y el tipo de documento. La siguiente tabla muestra resultados de referencia en modelos de uso comun:

ModeloPrecision de EntidadesExactitud de RelacionesCoberturaVelocidadCosto por 1000 docs
GPT-4o94%89%92%Rapido$12.50
Claude 3.5 Sonnet96%91%93%Rapido$10.00
Claude 4 Sonnet97%93%95%Muy Rapido$10.00
Gemini 1.5 Pro91%85%88%Moderado$8.00
Llama 3 (local)82%74%79%LentoGratis
Qwen 2.5 (local)80%71%76%LentoGratis

Los usuarios empresariales tipicamente prefieren Claude 4 Sonnet por su precision de entidades y exactitud de relaciones de primera clase, mientras que los equipos mas pequenos o despliegues con privacidad sensible pueden optar por modelos locales Llama a pesar de la menor calidad de extraccion.

Comenzando

Para comenzar a construir grafos de conocimiento desde tus documentos, visita el repositorio de LLM Graph Builder en GitHub. El repositorio incluye archivos Docker Compose para un stack completo (LLM Graph Builder + Neo4j), documentos de muestra para pruebas y guias de integracion para conectarse a diferentes proveedores LLM.

La documentacion de Neo4j GraphRAG proporciona guias completas para construir aplicaciones GraphRAG, incluyendo optimizacion de consultas, diseno de esquemas y ajuste de rendimiento.

FAQ

Que es LLM Graph Builder?

LLM Graph Builder es una herramienta de codigo abierto de Neo4j Labs que usa modelos de lenguaje grandes para convertir automaticamente documentos no estructurados en grafos de conocimiento estructurados. Extrae entidades y relaciones del texto y las mapea directamente en una base de datos de grafos Neo4j.

En que se diferencia del RAG tradicional?

El RAG tradicional recupera fragmentos de documentos por similitud de vectores, lo que carece de comprension estructural. GraphRAG, habilitado por LLM Graph Builder, preserva las relaciones y jerarquias de entidades, permitiendo consultas de razonamiento de multiples saltos que la busqueda vectorial por si sola no puede soportar con precision.

Que formatos de documento son compatibles?

LLM Graph Builder soporta archivos PDF, HTML, Markdown, JSON, CSV, XML y texto plano. Los documentos se pueden cargar directamente a traves de la UI o ingerir desde URLs, buckets S3, Google Drive y SharePoint. El sistema maneja contenido tanto estructurado como semiestructurado.

Que LLMs puedo usar para la extraccion?

La herramienta soporta OpenAI (GPT-4o), Anthropic (Claude 3/4), Google (Gemini) y modelos locales a traves de Ollama. La eleccion del LLM afecta la calidad y el costo de extraccion, y los modelos mas fuertes tipicamente producen una identificacion de entidades y relaciones mas precisa.

Que es GraphRAG?

GraphRAG (Generacion Aumentada por Recuperacion basada en Grafos) es una evolucion de RAG que representa el conocimiento como un grafo de entidades y relaciones en lugar de fragmentos planos de documentos. Esto permite al LLM recorrer conexiones entre conceptos, responder preguntas de multiples saltos y proporcionar respuestas mas contextualmente fundamentadas.


Lecturas Adicionales

TAG
CATEGORIES