Open Source

MediaCrawler: Scraper de Datos de Redes Sociales de Codigo Abierto con 30K Estrellas

MediaCrawler es un scraper de redes sociales multiplataforma de codigo abierto que soporta Xiaohongshu, Douyin, Kuaishou, Bilibili, Weibo y mas con automatizacion Playwright.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 03, 2026 6 min de lectura

Los datos de redes sociales son una mina de oro para investigacion de mercado, analisis de tendencias e inteligencia competitiva, pero acceder a ellos programaticamente es notoriamente dificil. Las plataformas bloquean activamente los scrapers, cambian sus APIs y requieren flujos de autenticacion complejos. MediaCrawler se ha convertido en una de las soluciones de codigo abierto mas populares para este desafio, con mas de 30,000 estrellas de GitHub y soporte para todas las principales plataformas de redes sociales chinas.

El proyecto en github.com/NanmiCoder/MediaCrawler proporciona un marco unificado para extraer datos de Xiaohongshu (Libro Rojo), Douyin (TikTok China), Kuaishou, Bilibili, Weibo y mas. Utiliza Playwright para automatizacion del navegador, rotacion de IP y gestion de cookies para eludir las medidas anti-scraping. El resultado es un pipeline de datos confiable para extraer publicaciones, comentarios, perfiles de usuario y metricas de participacion.

La popularidad de MediaCrawler proviene de su diseno pragmatico. En lugar de ser una biblioteca de scraping generica, esta especificamente ajustada a las peculiaridades de cada plataforma compatible: flujos de inicio de sesion, limites de velocidad, formatos de respuesta y mecanismos de deteccion anti-bot se manejan internamente. Los usuarios configuran objetivos (palabras clave, IDs de usuario, hashtags) y el crawler se encarga del resto.

Que es MediaCrawler?

MediaCrawler es un scraper de datos de redes sociales de codigo abierto y multiplataforma que utiliza automatizacion de navegador basada en Playwright para recolectar contenido de las principales plataformas sociales. Admite rastreo basado en busqueda (por palabra clave), rastreo basado en usuario (por ID de usuario) y recoleccion de comentarios. Los datos se generan en formato JSON estructurado para analisis posteriores.

Que plataformas son compatibles?

MediaCrawler admite todas las principales plataformas de redes sociales chinas y una creciente seleccion de plataformas internacionales.

Plataforma	Tipo	Modos de Rastreo
Xiaohongshu (RED)	Compartir estilo de vida/contenido	Buscar notas, notas de usuario, comentarios
Douyin (TikTok CN)	Video corto	Buscar videos, videos de usuario, comentarios
Kuaishou	Video corto	Buscar videos, videos de usuario
Bilibili	Streaming de video	Buscar videos, videos de usuario, comentarios
Weibo	Microblogging	Buscar publicaciones, publicaciones de usuario, comentarios
Zhihu	Plataforma de preguntas y respuestas	Buscar preguntas, respuestas
Tieba (Planificado)	Foros	Buscar hilos
TikTok Global (Planificado)	Video corto	Buscar videos

Cada plataforma tiene su propia estrategia de rastreo adaptada a su comportamiento de API y medidas anti-scraping.

Que tecnologia impulsa MediaCrawler?

MediaCrawler esta construido sobre una pila de bibliotecas Python bien establecidas para automatizacion web y procesamiento de datos.

Componente	Tecnologia	Proposito
Automatizacion del navegador	Playwright	Control de navegador sin cabeza
Gestion de proxies	Rotacion de IP personalizada	Eludir limites de velocidad y bloqueos
Gestion de cookies	Almacen persistente de cookies	Mantener sesiones de inicio de sesion
Extraccion de datos	Selectores CSS/XPath	Analizar contenido de pagina
Almacenamiento de datos	JSON, CSV, MySQL	Generar datos recolectados
Concurrencia	asyncio	Rastreo paralelo
Anti-deteccion	Parches sigilosos personalizados	Evitar deteccion de bots

El enfoque basado en Playwright significa que MediaCrawler interactua con las paginas como un usuario real, lo que hace que sea significativamente mas dificil de detectar para las plataformas en comparacion con los scrapers basados en solicitudes HTTP simples.

Cuales son las caracteristicas clave de MediaCrawler?

MediaCrawler proporciona un conjunto completo de capacidades de rastreo mas alla de la extraccion basica de contenido.

Caracteristica	Descripcion
Rastreo por busqueda de palabras clave	Recolectar todas las publicaciones/videos que coincidan con terminos de busqueda
Rastreo de perfil de usuario	Extraer todo el contenido de un usuario especifico
Recoleccion de comentarios	Recolectar comentarios y respuestas en publicaciones
Inicio de sesion automatico	Inicio de sesion basado en credenciales o codigo QR por plataforma
Rotacion de proxies	Grupos de proxies SOCKS5/HTTP para diversidad de IP
Limitacion de velocidad	Retrasos configurables para evitar deteccion
Rastreo incremental	Reanudar desde el ultimo punto de control
Salida estructurada	JSON con nombres de campo normalizados entre plataformas

Hay una version Pro de MediaCrawler?

El proyecto central de MediaCrawler es completamente de codigo abierto y gratuito. Los desarrolladores ofrecen una version “Pro” con caracteristicas adicionales para usuarios comerciales.

Caracteristica	Codigo Abierto	Version Pro
Soporte de plataformas	6 plataformas	10+ plataformas
Soporte de proxies	SOCKS5 basico	Proxies rotatorios avanzados
Exportacion de datos	JSON + CSV	JSON, CSV, MySQL, Elasticsearch
Limitacion de velocidad	Configuracion manual	Limitacion adaptativa con IA
Soporte	GitHub Issues	Canal de soporte dedicado
Licencia	MIT	Licencia comercial

La version Pro esta dirigida principalmente a empresas que ejecutan pipelines de recoleccion de datos a gran escala.

Preguntas Frecuentes

Que es MediaCrawler?

MediaCrawler es una herramienta Python de codigo abierto para extraer datos de redes sociales de plataformas como Xiaohongshu, Douyin, Bilibili, Weibo y mas. Utiliza automatizacion de navegador Playwright para extraer publicaciones, comentarios y datos de usuario.

Que plataformas de redes sociales son compatibles?

Xiaohongshu (RED), Douyin (TikTok China), Kuaishou, Bilibili, Weibo y Zhihu. El soporte para TikTok Global esta planificado para futuras versiones.

Que tecnologia utiliza MediaCrawler?

Playwright para automatizacion del navegador, asyncio para rastreo concurrente, rotacion de IP configurable y gestion persistente de cookies para mantenimiento de sesiones.

Cuales son las caracteristicas clave de MediaCrawler?

Rastreo por busqueda de palabras clave, extraccion de perfiles de usuario, recoleccion de comentarios, inicio de sesion automatico, rotacion de proxies, limitacion de velocidad, rastreo incremental y salida JSON estructurada.

Hay una version Pro/empresarial de MediaCrawler?

Si. Una version Pro ofrece plataformas adicionales, gestion avanzada de proxies, limitacion de velocidad adaptativa y soporte comercial para usuarios empresariales.

Lecturas Adicionales

flowchart TB
    A[Configuracion de Usuario] --> B[Motor MediaCrawler]
    B --> C{Seleccionar Plataforma}
    C --> D[Xiaohongshu]
    C --> E[Douyin]
    C --> F[Bilibili]
    C --> G[Weibo]
    D --> H[Iniciar Playwright]
    E --> H
    F --> H
    G --> H
    H --> I[Inicio de Sesion + Gestion de Cookies]
    I --> J[Navegar al Objetivo]
    J --> K[Extraer Datos]
    K --> L[Analizar y Normalizar]
    L --> M[Salida JSON]
    M --> N[Pipeline de Analisis]

graph LR
    subgraph Pipeline de Datos
        A[Palabras Clave de Busqueda] --> B[Inicio de Sesion Automatico]
        B --> C[Seleccionar Proxy]
        C --> D[Rastreo de Pagina]
        D --> E[Analisis de Datos]
        E --> F[Formatear JSON]
    end
    subgraph Almacenamiento
        F --> G[Archivo Local]
        F --> H[Base de Datos]
        F --> I[Almacen de Datos]
    end
    subgraph Anti-Deteccion
        J[Rotacion de User Agent]
        K[Demoras Similares a Humanas]
        L[Rotacion de IP]
        M[Parches Sigilosos]
    end

MediaCrawler: Scraper de Datos de Redes Sociales de Codigo Abierto con 30K Estrellas

Que es MediaCrawler?

Que plataformas son compatibles?

Que tecnologia impulsa MediaCrawler?

Cuales son las caracteristicas clave de MediaCrawler?

Hay una version Pro de MediaCrawler?

Preguntas Frecuentes

Que es MediaCrawler?

Que plataformas de redes sociales son compatibles?

Que tecnologia utiliza MediaCrawler?

Cuales son las caracteristicas clave de MediaCrawler?

Hay una version Pro/empresarial de MediaCrawler?

Lecturas Adicionales

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES