Tags

可扩展

Xorbits Inference:可扩展的 LLM 服务平台
AI

Xorbits Inference:可扩展的 LLM 服务平台

在生产环境中部署大型语言模型与训练它们是完全不同的挑战。训练需要大规模集群和数周的计算时间,但可以容忍批处理和可变吞吐量。生产推理需要一致的亚秒级延迟、弹性扩展以应对流量高峰、跨不同硬件配置的多模型管理,以及对每个请求的可观测性。训练好的模型与生产级服务基础设施之间的差距是巨大的。

TAG
CATEGORIES