MarkItDown:微软的通用文档到 Markdown 转换器
任何文档理解 AI 管道的第一步都是将原始文档转换为机器可读的文本。这个看似简单的任务充满了挑战:具有复杂布局的 PDF、无可提取文本的扫描文档、包含合并单元格的 Excel 文件、包含嵌入图片的 PowerPoint 演示文稿。MarkItDown,微软的开源文档转换工具,正面应对这些挑 …
SoloSoft 关于软件工程、Hugo、网站性能与多语言内容发布的技术文章。
任何文档理解 AI 管道的第一步都是将原始文档转换为机器可读的文本。这个看似简单的任务充满了挑战:具有复杂布局的 PDF、无可提取文本的扫描文档、包含合并单元格的 Excel 文件、包含嵌入图片的 PowerPoint 演示文稿。MarkItDown,微软的开源文档转换工具,正面应对这些挑 …
在本地运行 AI 模型具有无可否认的优势:完全的数据隐私、无需 API 费用、离线操作,以及对模型选择和配置的完全控制。但用本地 AI 服务替代云 AI 服务通常需要拼凑不同的工具——一个用于 LLM,另一个用于图片生成,第三个用于语音识别。LocalAI 通过提供一个单一的、OpenAI …
llm.c 提供了一个在纯 C 中完整、可运行的 GPT-2 训练实现。 graph LR A[输入文本\n已分词] --> B[嵌入层\nToken + 位置嵌入] B --> C[Transformer 块 x12\n自注意力 + FFN] C --> D[层归一化 …
LlamaFactory 使在消费级硬件上微调数百种 LLM 架构变得实用。 graph LR A[基础模型\nHugging Face / 本地] --> B[量化\nBitsandbytes / GPTQ / AWQ] B --> C[适配器设置\nLoRA / QLoRA …
llama.cpp 已发展成为通用推理引擎,支持数百种模型架构和多种后端。 graph TD A[GGUF 模型文件] --> B[llama.cpp 推理引擎] B --> C[CPU 后端\nx86 搭配 AVX2/AVX-512\nARM 搭配 NEON] B …
第一代 LLM 智能体遵循一个简单、可预测的循环——即思考、行动、观察的 ReAct 模式。但实际应用需要更复杂的编排:多个智能体协同工作、条件分支、人工监督、跨复杂工作流的持久状态,以及循环回溯以进行优化的能力。LangGraph 提供了使这些模式成为可能的基于图的架构。