AI

LayoutParser: Toolkit Unificado de Código Abierto para Análisis de Imágenes de Documentos

LayoutParser es un toolkit unificado de aprendizaje profundo para el análisis de imágenes de documentos, que proporciona detección de diseño, integración OCR y un zoo de modelos en solo 4 líneas de código.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LayoutParser: Toolkit Unificado de Código Abierto para Análisis de Imágenes de Documentos

LayoutParser fue construido para acabar con el caos del procesamiento de documentos. Este toolkit de aprendizaje profundo de código abierto proporciona una interfaz unificada para tareas de análisis de imágenes de documentos.

Repositorio: github.com/Layout-Parser/layout-parser


Capacidades Clave

CapacidadDescripciónOpciones de Backend
Detección de DiseñoDetectar regiones (texto, tablas, figuras)Detectron2, TensorFlow, ADQ
OCRExtraer texto de regiones detectadasTesseract, motores personalizados
Zoo de ModelosModelos preentrenadosPubLayNet, Prima, Newspaper

Inicio Rápido

pip install layoutparser
import layoutparser as lp
image = lp.load_image("document.png")
model = lp.DetectionModel("lp://PubLayNet/faster_rcnn_r50_fpn")
result = model.detect(image)
lp.draw_box(image, result, box_width=5).show()

Zoo de Modelos

DatasetModelos DisponiblesTipos de Región
PubLayNetFaster R-CNN, Mask R-CNN, RetinaNetTexto, Título, Tabla, Figura, Lista
PrimaFaster R-CNN, Mask R-CNNTexto, Imagen, Tabla, Gráfico
NewspaperFaster R-CNNTexto, Foto, Ilustración, Mapa

Integración OCR

ocr_agent = lp.TesseractAgent()
text_blocks = ocr_agent.detect(image)

table_blocks = [b for b in result if b.type == "Table"]
for block in table_blocks:
    text = ocr_agent.detect(block.crop(image))
    print(text)

FAQ

Qué es LayoutParser? Toolkit Python de código abierto para análisis de imágenes de documentos, unificando detección de diseño, OCR y zoo de modelos.

Cómo usarlo? pip install layoutparser, luego 4 líneas de código.

Modelos? Faster R-CNN, Mask R-CNN y RetinaNet preentrenados.

Integración OCR? Sí, Tesseract integrado.

Cómo citarlo? Archivo CITATION en el repositorio.

Lecturas Adicionales

TAG
CATEGORIES