La Generacion Aumentada por Recuperacion (RAG) se ha convertido en el enfoque estandar para fundamentar las salidas de LLM en conocimiento externo. Pero la RAG estandar tiene una limitacion fundamental: trata cada consulta de forma independiente, sin memoria de recuperaciones pasadas ni capacidad para conectar informacion entre documentos. HippoRAG se inspira en el hipocampo del cerebro humano para superar esto, creando un sistema de memoria a largo plazo que mejora dramaticamente la respuesta a preguntas multi-salto.
Publicado en NeurIPS 2024 y disponible en github.com/OSU-NLP-Group/HippoRAG, HippoRAG combina LLMs con grafos de conocimiento en un marco modelado segun la teoria de indexacion hipocampal de la memoria humana. El resultado es un sistema RAG que construye una estructura de conocimiento persistente a partir de documentos, permitiendole responder preguntas complejas que requieren conectar informacion a traves de multiples fuentes, logrando aproximadamente un 20% de mejora sobre la RAG estandar en benchmarks de QA multi-salto.
El proyecto fue desarrollado por investigadores del Grupo NLP de la Universidad Estatal de Ohio y ha ganado rapidamente atencion en circulos academicos e industriales. HippoRAG 2, la version mas reciente, introdujo mejoras adicionales en precision de recuperacion y eficiencia computacional. El marco es agnostico respecto al modelo y puede aplicarse a cualquier coleccion de documentos.
Que es HippoRAG?
HippoRAG es un marco RAG inspirado neurobiologicamente que crea una memoria a largo plazo para LLMs combinando grafos de conocimiento con generacion aumentada por recuperacion. Esta modelado segun la teoria de indexacion hipocampal, donde el hipocampo crea y almacena punteros de indice a informacion distribuida en la neocorteza. HippoRAG logra un rendimiento de ultima generacion en benchmarks de respuesta a preguntas multi-salto.
Como funciona HippoRAG?
HippoRAG opera en dos fases: la fase de indexacion fuera de linea y la fase de recuperacion en linea.
| Fase | Componente | Que Sucede | Analoga |
|---|---|---|---|
| Indexacion fuera de linea | Extraccion basada en LLM | Extraer tripletes de grafo de conocimiento abierto de documentos | Codificacion hipocampal |
| Indexacion fuera de linea | Reconocimiento de entidades nombradas | Identificar entidades y enlazarlas entre documentos | Separacion de patrones |
| Indexacion fuera de linea | Construccion del grafo | Construir un grafo de conocimiento unificado conectando todos los documentos | Formacion de mapa cognitivo |
| Recuperacion en linea | Codificacion de consulta | Codificar la pregunta en una consulta a nivel de grafo | Recuperacion hipocampal |
| Recuperacion en linea | Recorrido del grafo | Seguir rutas de entidades y relaciones para encontrar respuestas | Completacion de patrones |
| Recuperacion en linea | Ensamblaje de contexto | Reunir pasajes relevantes para el contexto del LLM | Recuperacion de memoria episodica |
Este enfoque de dos fases significa que una vez construido el grafo de conocimiento, la recuperacion es significativamente mas eficiente que reincrustar y buscar en todos los documentos para cada consulta.
Que mejoras trae HippoRAG 2?
HippoRAG 2 aborda varias limitaciones del original e introduce nuevas capacidades.
| Caracteristica | HippoRAG 1 | HippoRAG 2 |
|---|---|---|
| Construccion del grafo | Extraccion LLM de un solo paso | Refinamiento iterativo con verificacion |
| Enlace de entidades | Coincidencia exacta de cadenas | Coincidencia semantica + difusa |
| Alcance de recuperacion | Pasajes top-k | Profundidad de recuperacion adaptativa |
| Costo computacional | Alto costo de indexacion | 40% menos costo de indexacion |
| Precision multi-salto (2WikiMultihop) | 51.3% | 59.8% |
| Precision multi-salto (HotpotQA) | 58.2% | 65.1% |
| Precision un solo salto (Natural Questions) | 44.7% | 51.4% |
Las mejoras en HippoRAG 2 lo hacen practico para colecciones de documentos mas grandes y aplicaciones de mayor rendimiento.
Como se instala y usa HippoRAG?
HippoRAG esta disponible como paquete Python con una API sencilla:
# Instalar
pip install hipporag
# Uso basico
from hipporag import HippoRAG
# Indexar documentos
rag = HippoRAG()
rag.index(documents)
# Consultar
answer = rag.query("What is the relationship between protein X and disease Y?")
print(answer)
La biblioteca se integra con cargadores de documentos y modelos de incrustacion comunes, y admite backends de incrustacion OpenAI y de codigo abierto.
Como se debe citar HippoRAG?
Si usa HippoRAG en trabajos academicos, cite el articulo de NeurIPS 2024:
@inproceedings{hipporag2024,
title={HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models},
author={Gutierrez, Bernal Jimenez and others},
booktitle={NeurIPS},
year={2024}
}
Preguntas Frecuentes
Que es HippoRAG?
HippoRAG es un marco RAG inspirado neurobiologicamente que crea una memoria a largo plazo para LLMs utilizando grafos de conocimiento. Logra aproximadamente un 20% mas de precision en QA multi-salto en comparacion con la RAG estandar y se publico en NeurIPS 2024.
Como funciona HippoRAG?
HippoRAG tiene dos fases: indexacion fuera de linea (extraer tripletes de grafos de conocimiento de documentos, enlazar entidades y construir el grafo) y recuperacion en linea (codificar la consulta, recorrer el grafo y ensamblar pasajes relevantes para el LLM). Esto refleja la teoria de indexacion hipocampal de la memoria humana.
Que mejoras ofrece HippoRAG 2?
HippoRAG 2 introduce refinamiento iterativo del grafo, coincidencia semantica de entidades, profundidad de recuperacion adaptativa y un 40% menos de costo computacional. La precision mejora de 51.3% a 59.8% en 2WikiMultihop y de 58.2% a 65.1% en HotpotQA.
Como instalo HippoRAG?
Instale via pip install hipporag. La biblioteca admite incrustaciones OpenAI y modelos de incrustacion de codigo abierto, con integraciones para cargadores de documentos comunes.
Como se debe citar HippoRAG?
Cite el articulo de NeurIPS 2024 de Gutierrez et al. La entrada BibTeX esta disponible en el README del repositorio de GitHub.
Lecturas Adicionales
- Repositorio de GitHub de HippoRAG
- HippoRAG: Memoria a Largo Plazo Neurobiologicamente Inspirada para LLMs (NeurIPS 2024)
- HippoRAG 2: Mejor Recuperacion con Refinamiento Iterativo
- Teoria de Indexacion Hipocampal de la Memoria
- Generacion Aumentada por Recuperacion: Una Encuesta
flowchart TB
subgraph Indexacion Fuera de Linea
A[Coleccion de Documentos] --> B[Extraccion LLM]
B --> C[Tripletes de Conocimiento]
C --> D[Enlace de Entidades]
D --> E[Grafo de Conocimiento]
end
subgraph Recuperacion en Linea
F[Consulta de Usuario] --> G[Codificacion de Consulta]
G --> H[Recorrido del Grafo]
H --> I[Ensamblaje de Contexto]
I --> J[Respuesta LLM]
end
E --> Hgraph TD
subgraph Comparacion
A[RAG Estandar] --> B[Incrustar Cada Consulta]
B --> C[Busqueda de Similitud Vectorial]
C --> D[Pasajes Top-K]
D --> E[Generacion de Respuesta]
F[HippoRAG] --> G[Construir Grafo de Conocimiento]
G --> H[Codificar Consulta como Recorrido de Grafo]
H --> I[Busqueda de Ruta Multi-Paso]
I --> J[Ensamblar Pasajes Conectados]
J --> K[Generacion de Respuesta]
end
subgraph Precision
L["RAG Estandar: 42.1% (2WikiMultihop)"]
M["HippoRAG 1: 51.3%"]
N["HippoRAG 2: 59.8%"]
end
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!