PowerInfer: Inferencia LLM de Alta Velocidad en GPUs de Consumo con Diseño Híbrido CPU-GPU
Ejecutar modelos de lenguaje grandes localmente siempre ha estado limitado por una barrera infranqueable: la memoria GPU. Un modelo de 175 mil …
Ejecutar modelos de lenguaje grandes localmente siempre ha estado limitado por una barrera infranqueable: la memoria GPU. Un modelo de 175 mil …