GPTQModel:适用于 GPU 和 CPU 的生产级 LLM 量化工具包
大型语言模型功能强大,但其体积使得部署成本高昂。一个 700 亿参数的 16 位精度模型需要 140GB 的 GPU 内存——远超单一消费级 GPU 的容量。量化是主要的解决方案:降低数值精度以缩小内存占用并加速推理。由 ModelCloud 开发的 GPTQModel 是一个生产级量化工 …
大型语言模型功能强大,但其体积使得部署成本高昂。一个 700 亿参数的 16 位精度模型需要 140GB 的 GPU 内存——远超单一消费级 GPU 的容量。量化是主要的解决方案:降低数值精度以缩小内存占用并加速推理。由 ModelCloud 开发的 GPTQModel 是一个生产级量化工 …
LLaMA-VID(大型语言与视频助手)是 ECCV 2024 的研究项目,针对 LLM 视频理解中的根本瓶颈:Token 效率。虽然现代 LLM 拥有 128K 到 200K Token 的上下文窗口,但先前的多模态方法每个视频帧消耗 100 到 500 个 Token,使得即使是短暂的 …
RAG(检索增强生成)生态系统已快速成熟,但有一个瓶颈始终存在:垃圾进,垃圾出。大多数文档解析工具在未理解文档视觉结构的情况下,将原始文本送入 LLM 管道,产生的区块会将标题与其内容分离、将表格跨页分割,并失去了使文档可读的语义层级结构。Filimoa 的 Open Parse 从根源解 …
2026 年的 AI 应用领域存在一个矛盾:底层模型已变得异常强大,但围绕它们构建生产应用仍然需要大量的技术专业知识。Flowise 以一种已吸引超过 48,000 个 GitHub 星标并获得 Y Combinator 支持的方法来弥合这一差距——一个可视化、拖放式平台,将 …
FalkorDB 是一款超快速、开源的多租户属性图形数据库,专为 LLM 知识图谱与 GraphRAG(基于图形的检索增强生成)打造。作为 RedisGraph 的直接继任者(Redis Inc. 于 2023 年停止维护),FalkorDB 已被越来越多需要在大型语言模型时代使用优化图形 …
微调大型语言模型已成为需要特定领域 AI 性能的组织不可或缺的手段,但这个过程始终受到一个关键资源的瓶颈:高质量的训���数据。手动创建指令微调数据集既昂贵又缓慢,且需要通常短缺的领域专业知识。Easy Dataset,ConardLi 开发的开源框架,通过提供一个基于 GUI 的系统,从 …