AI

Twinny:VS Code 的本地 LLM 推理

Twinny 是一个 VS Code 扩展,用于通过 Ollama 运行本地 LLM 推理,提供无需云依赖的 AI 代码补全和聊天功能。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Twinny:VS Code 的本地 LLM 推理

云依赖的 AI 工具与开发者隐私之间的矛盾已成为 AI 辅助软件开发中最具决定性的辩论之一。GitHub Copilot 和 Cursor 等服务提供了令人印象深刻的代码补全功能,但它们需要将你的代码发送到外部服务器。对于处理专有代码、在受监管行业工作或只是不愿与云服务分享工作成果的开发者来说,这是无法接受的。答案是本地 AI,而 Twinny 是访问它的最佳方式之一。

Twinny 是一个免费、开源的 VS Code 扩展,将本地 LLM 推理直接带入你的编辑器。它连接到 Ollama——流行的本地模型运行器——并提供 AI 代码补全和聊天辅助,无需任何数据离开你的机器。没有订阅、没有速率限制、没有云依赖。只有一个在你的硬件上运行的本地模型,集成到你的开发工作流程中。

使用体验与 GitHub Copilot 非常相似。当你输入时,Twinny 以幽灵文本形式建议补全。你可以按 Tab 接受,或继续输入以优化。行内聊天面板让你可以询问关于代码的问题、请求重构或生成新代码——全部通过一个在初始下载后无需运行成本的本地模型运行。质量取决于你选择的模型,社区已收敛到几个优秀的选项,可与大多数日常编码任务的云解决方案相媲美。

功能比较

Twinny 通过其 VS Code 集成提供了一套全面的 AI 辅助编码功能:

功能Twinny (本地)GitHub CopilotCursor
代码补全行内幽灵文本行内幽灵文本行内幽灵文本
聊天侧边面板 + 行内侧边面板内建
隐私完全本地依赖云依赖云
模型选择任何 Ollama 模型OpenAI 专有GPT-4 / Claude
成本免费10 美元/月20 美元/月
速率限制有(每小时)有(按使用层级)
离线是(使用已下载模型)
自定义提示词用户定义有限有限

Twinny 工作流程

下图说明 Twinny 如何通过本地栈处理代码补全请求:

每次按键都会触发此管线,在现代 GPU 上使用 7B 模型通常在 200-500 毫秒内完成。Twinny 扩展处理上下文提取、提示词构建和结果过滤,而 Ollama 管理模型生命周期和推理。

Twinny 的推荐模型

Twinny 输出的质量在很大程度上取决于模型的选择:

模型参数代码质量速度VRAM最适用于
CodeGemma7B优秀6GB通用代码补全
DeepSeek-Coder6.7B优秀6GB复杂代码生成
StarCoder27B非常好6GB多语言支持
Qwen 2.5 Coder7B非常好6GB中文 + 英文代码
Llama 3.18B中等8GB聊天 + 通用编码
Qwen 2.5 Coder14B优秀中等12GB高质量补全

开始使用

要开始使用 Twinny,首先安装 Ollama 并下载模型,然后在 VS Code 中安装 Twinny 扩展:

# 安装 Ollama 并下载代码模型
curl -fsSL https://ollama.ai/install.sh | sh
ollama pull codegemma

# 然后在 VS Code 扩展面板中搜索 "Twinny"

Twinny GitHub 仓库 提供全面的设置指南、配置提示,以及关于模型偏好和性能调优的社区讨论。

常见问题

什么是 Twinny?

Twinny 是一个免费、开源的 VS Code 扩展,使用通过 Ollama 本地运行的 LLM 提供 AI 代码补全和聊天功能。它是 GitHub Copilot 的隐私优先替代方案,没有云依赖、数据不会离开你的机器,也没有订阅费用。

Twinny 与 GitHub Copilot 相比如何?

Twinny 是完全本地的,而 Copilot 是基于云的。Twinny 的补全取决于你本地模型的质量(Llama 3、Qwen、CodeGemma 等),而非 Copilot 的专有 OpenAI 模型。Twinny 提供无限补全且无需订阅,而 Copilot 则有 10 美元/月的费用和速率限制。

哪些模型最适合 Twinny?

对于代码补全,专用代码模型如 CodeGemma、StarCoder2 和 DeepSeek-Coder 表现最佳。对于聊天式辅助,通用模型如 Llama 3 和 Qwen 2.5 效果很好。7B 参数的模型通常能达到质量和速度的最佳平衡。

Twinny 需要什么硬件?

对于 7B 参数模型:8GB RAM(建议 16GB+)、任何现代 CPU,以及 6GB+ VRAM 的 GPU(Apple Silicon 效果良好)。对于更大的模型,需要更多内存和 GPU 性能。即使在没有 GPU 的情况下,使用 4 位量化的模型在 CPU 上也能实现合理的补全。

Twinny 真的免费吗?

是的,Twinny 在 MIT 许可下完全免费且开源。没有订阅、没有使用限制、没有数据收集。唯一的成本是运行本地模型的电费和存储模型权重的空间。


延伸阅读

TAG
CATEGORIES