Categories

开源项目

Qwerty Learner:为键盘工作者打造的开源打字与单词学习工具
开源项目

Qwerty Learner:为键盘工作者打造的开源打字与单词学习工具

学习词汇和提升打字速度是知识工作者最重要的两项技能,但这两者几乎总是分开练习。Qwerty Learner 以一个巧妙的洞察填补了这个缺口:打字本身就是一种单词练习方式。通过将刻意打字训练与结构化的词汇列表相结合,它将例行技能锻炼转化为一个良性循环。

OmniGen2:进阶开源多模态生成模型
AI

OmniGen2:进阶开源多模态生成模型

图像生成领域已变得日益碎片化。不同的模型处理文生图生成、图像编辑和风格转换。用户必须在一个令人困惑的专门工具生态系统中导航,每个工具都有自己的界面、提示格式和能力。OmniGen2 由 VectorSpaceLab 开发,以一个统一的单一架构中处理文生图、指令引导编辑和上下文内生成的多模态 …

GOT-OCR2.0:迈向 OCR-2.0 的通用 OCR 理论与统一端到端模型
AI

GOT-OCR2.0:迈向 OCR-2.0 的通用 OCR 理论与统一端到端模型

光学字符识别(OCR)几十年来一直被视为已解决的问题——对于具有简单文本的清晰扫描文档而言。但真实世界的视觉内容远更杂乱多样。带有复杂符号的数学方程、具有不规则单元格结构的表格、带有专门符号的乐谱,以及招牌和标签上的场景文本,都挑战了假设干净、线性文本在均匀背景上的传统 OCR 方法。

Faster-Whisper:使用 CTranslate2 实现 4 倍速语音识别
AI

Faster-Whisper:使用 CTranslate2 实现 4 倍速语音识别

OpenAI 的 Whisper 模型是自动语音识别(ASR)领域的一项突破,证明了大规模弱监督训练可以产出具有强大多语言转录能力的模型。然而,标准的 PyTorch 实现留下了显著的性能提升空间。Faster-Whisper 由 SYSTRAN 开发,通过基于 CTranslate2 的 …

Everyone Can Use English:开源 AI 驱动英语学习平台
开源项目

Everyone Can Use English:开源 AI 驱动英语学习平台

AI 与语言学习的交集代表了现代机器学习最有前景的应用之一。个性化辅导、实时发音反馈和上下文翻译——这些在十年前还是科幻小说中的能力,现在在技术上已经可以实现。Everyone Can Use English 由 ZuodaoTech 开发,将这些能力集成到一个专为中文用户学习英语而设计的 …

TAG
CATEGORIES