AI+开源项目精选工具大全（按分类）

您好，这是为您整理的AI开源项目精选工具大全，按技术领域和项目类型分类，涵盖开发框架、AI智能体、多模态模型、语音技术、基础设施等方向。每个项目都配有简介和核心特点，并可通过点击名称在新页面中访问其GitHub仓库或项目主页。

Youtu-Agent：腾讯优图实验室开源的模块化AI智能体开发框架，专为构建、运行和评估自主AI智能体设计。在WebWalkerQA测试中取得71.47%准确率，在GAIA文本验证子集上达72.8%，创下开源智能体框架新纪录。采用高度模块化架构，支持DeepSeek-V3等开源模型，内置网页搜索、文件操作、代码执行等丰富工具包。
Unbody：被称为“AI版Supabase”的开源项目，旨在搭建模块化后台系统，将AI推理与知识查询能力融入CRUD backend。支持分层组件架构，可接入多种知识源提供智能问答服务，允许多模型协同完成复杂业务逻辑。社区增长迅速，是AI-powered SaaS平台的关键基石。
Open WebUI MCP：基于Model Context Protocol (MCP)的开源项目，将各种AI模型与工具统一暴露成标准化的OpenAPI HTTP接口。MCP由Anthropic提出，现被OpenAI、Google DeepMind等平台采纳，被誉为AI Agent时代的“USB-C”级别接口标准。该项目在短期内获得惊人的stars-per-day增长，生态已上线超5000个MCP服务器。
LangChain：构建LLM应用最流行的开源框架，提供模块化组件连接不同AI模型、数据源和工具链。2024年曾在Runa Capital开源初创公司指数中排名第一，是实现RAG（检索增强生成）和复杂AI工作流的基础设施。
LlamaIndex：专为RAG应用设计的开源数据框架，简化连接私有数据与大模型的过程，支持多种数据源和索引策略。与LangChain并列为LLM应用开发的两大主流框架。
Dify：开源LLM应用开发平台，支持快速构建、部署和管理AI应用。2024年在GitHub上新增超4.3万stars，增长326%，成为AI应用开发领域的热门选择。

AI智能体与自动化

让AI能够自主执行任务、操作电脑的智能体项目。

LobsterAI：网易有道开源的“国版OpenClaw”全场景个人助理Agent，能够7×24小时在电脑端自主运行、直接替用户“动手干活”。内置16种实用技能，覆盖文档处理（Word、Excel、PPT、PDF）、数据分析与报表制作、Web搜索、Canvas海报绘制、前端UI原型设计、视频生成、网页自动化等场景。支持桥接钉钉、飞书等IM平台，用户出门在外时可通过手机发送指令让桌面端Agent执行任务。
OWL (CAMEL-AI)：建立在CAMEL-AI多agent协作架构之上的开源项目，通过browser、CLI、函数调用等方式支持多个agent协同完成任务。具备任务拆分与agent协作能力，支持自定义agent插件，提供CLI、Browser UI以及函数调用等多种接口形式，适合构建任务自动化流水线和复杂对话系统。
UI-Venus-1.5：蚂蚁集团开源的端到端GUI智能体，单个模型即可统一处理定位（Grounding）、移动端（Mobile）与网页端（Web）三大场景，全面支持40+主流中文App。采用中期训练、离线强化学习、在线强化学习和模型融合技术路线，在AndroidWorld、AndroidLab等真实场景测试中全面达到SOTA性能。让AI真正能够“听得懂指令、看得清界面、做得对操作”。
OpenHands（原名OpenHands）：开源平台，用于构建软件开发生成智能体。从2024年3月发布到年底，在GitHub上获得3.96万stars，之后又新增1.2万stars，成为AI编程智能体领域的明星项目。

多模态与视觉生成

支持图像、视频、文本等多模态理解和生成的开源模型。

Emu2：智源研究院开源的370亿参数多模态基础模型，被称为“开源版Gemini”。支持理解乱序图文输入，能够进行多模态上下文学习，甚至生成视频。在少样本多模态理解任务上大幅超越Flamingo-80B等主流模型。基于Emu2微调的Emu2-Chat和Emu2-Gen分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型。
SAM 2.1：Meta开源的图像分割模型，总下载量超过70万次，在线演示程序帮助用户分割了数十万个物体。相比前代，引入额外数据增强技术改善对视觉相似物体和小物体的识别，通过调整位置编码和训练策略提升遮挡处理能力，支持用户交互式分割和多对象跟踪。在医学图像、气象学等跨学科研究中产生巨大影响。
ComfyUI：开源的节点式AI图像、视频和音频生成程序，采用模块化工作流设计，支持高度自定义的生成流程。2024年GitHub stars增长195%至6.19万，成为AI艺术生成领域最受欢迎的工具之一。
SkyReels-V3：昆仑天工SkyworkAI团队开源的端到端视频生成模型，在单一架构内实现参考图像转视频、视频延长、音频驱动虚拟人三大核心能力。参考一致性得分0.6698，视觉质量0.8119，超越主流商业模型。
MOVA：上海创智学院OpenMOSS团队联合模思智能开源的端到端音视频生成模型，320亿参数MoE架构，支持8秒720p音画同步生成，实现真正意义上的“音画同出”，多语言口型同步能力达工业级水准。
Wan 2.2 T2V A14B：阿里巴巴开源的业界首个采用专家混合（MoE）架构的文本转视频模型，可生成480P和720P分辨率的5秒视频，采用分阶段专家处理策略优化生成质量。
Wan 2.2 I2V A14B：阿里巴巴开源的MoE架构图片转视频模型，将静态图片转换为流畅自然的视频序列，采用扩散变换器架构和创新的时空VAE。

大语言模型与文本处理

开源的大语言模型和文本理解、处理工具。

浪潮信息源2.0：浪潮信息发布的基础大模型，包括1026亿、518亿、21亿等三种参数规模，全面开源。通过使用中英文书籍、百科、论文等高质量中英文资料训练，采用基于大模型的数据生产及过滤方法提升数据质量。在代码生成、数学问题求解、事实问答等任务上整体表现处于中上水平。
Granite-Docling-258M：IBM开源的轻量级视觉语言模型，参数量2.58亿，专为端到端文件转换场景设计。采用DocTags通用文件结构标记语言，能够精确描述页面元素的类型、坐标、阅读顺序及跨元素关系，支持中文、阿拉伯语和日语等语言。输出结果可完整保留版面、表格、数学公式、列表和代码块等结构，准确度高于传统OCR。
Second Me：Mindverse团队开源的AI-native个人记忆系统，主打持久化、角色化的个人数字分身。采用Hierarchical Memory Model（HMM）与Me-Alignment算法实现用户个性化记忆存储与调用，支持本地部署与隐私控制。上线一周内获得6000+ stars，增长速度超过LangChain与MCP初期表现。

语音与音频技术

专注于语音合成、识别和对话的开源项目。

Spirit LM：Meta首个开源的多模态语言模型，能够自由地混合文本和语音数据。基础版使用音素标记模拟语音，表达版使用音调和风格标记捕捉语调信息（如兴奋、愤怒或惊讶）。通过逐词交错的方法在语音和文本数据集上训练，实现跨模态生成，能够生成听起来更自然的语音，并具备自动语音识别、文本到语音和语音分类等能力。
VoiceStar：开源的TTS（文本转语音）项目，提供可控发音duration‑controllable TTS，能对语速、语调、长度进行精确控制。用户可指定持续时长，适配多种音频生成场景，鲁棒性强，可extrapolate至未见语速或音长输入。采用MIT + CC-BY-4.0开源许可，适合播客、语音客服、语音内容制作等需要精准控制语音生成的场景。
CSM (Conversational Speech Model)：Sesame AI Labs开源的对话语音模型，基于LLaMA架构并增加音频解码器（Mimi code）输出语音信号，可进行多方对话模拟。Hugging Face已发布其1B版本checkpoint，支持高质量的对话式语音生成。

开发者工具与部署

帮助开发者更便捷地部署、运行和测试AI模型的工具。

Ollama：Y Combinator孵化的开源工具，用于在本地（桌面端）运行LLM，如Meta的Llama和DeepSeek等模型。2024年在GitHub上新增约7.6万stars，增长261%至10.5万以上（目前已超13.5万），成为最受欢迎的本地模型部署工具。
F/mcptools：面向MCP生态的CLI工具包，为开发者提供MCP工具与接口的生成、管理和测试支持。包含CLI工具生成器（快速scaffold MCP工具项目）、接口模板与模拟、文档自动生成等功能。降低MCP工具开发门槛，增强MCP工具的可复制性与普及度。
Zed：开源的跨平台协作代码编辑器，“专为与人类和AI的高性能协作而设计”。2024年1月开源后，全年获得超5.2万GitHub stars，位列开源初创公司增速第二。
self.so：开源的个人官网生成器，用户上传简历PDF，项目利用Together.ai提供的LLM服务自动解析信息，生成个人站点。基于Next.js + Vercel AI SDK + Upstash Redis + S3构建，支持问答功能、智能推荐等交互体验。GitHub上约1.8k stars，多次被GitHub官方博客列为新晋热门AI项目。

💡 2026年AI开源项目趋势观察

趋势方向	关键洞察
AI智能体进入实用化阶段	LobsterAI、UI-Venus-1.5等国产智能体项目实现了从“演示”到“可用”的跨越，能够在真实环境中稳定执行任务，深度适配中文办公场景和主流App。
MCP成为Agent互联标准	Model Context Protocol被OpenAI、Google DeepMind等巨头采纳，Open WebUI MCP等项目推动其成为AI Agent时代的“USB-C”接口标准。
中国团队贡献显著	腾讯Youtu-Agent、蚂蚁UI-Venus-1.5、智源Emu2、阿里Wan系列等项目在各自领域达到SOTA水平，展现了中国在AI开源领域的创新能力。
本地部署需求旺盛	Ollama等本地运行工具持续火爆，Second Me等个人记忆系统强调隐私控制和本地化部署，反映用户对数据主权的关注。
端侧AI加速发展	IBM Granite-Docling等轻量级模型的出现，证明小参数模型在特定任务上可以达到甚至超越大模型的效果，为端侧部署提供了可能。
开源生态商业价值凸显	开源初创公司在2024年获得大量融资和用户增长，Dify、ComfyUI等项目证明了开源+商业化的可持续模式。

目录

AI开发框架与基础设施

AI智能体与自动化

多模态与视觉生成

大语言模型与文本处理

语音与音频技术

开发者工具与部署

💡 2026年AI开源项目趋势观察

目录

划词评论

📲 申请成为合伙人

目录

AI开发框架与基础设施

AI智能体与自动化

多模态与视觉生成

大语言模型与文本处理

语音与音频技术

开发者工具与部署

💡 2026年AI开源项目趋势观察

目录

划词评论