技术速递｜开启全新的多模态模型 - Microsoft Phi-4-mini & Phi-4-multimodal

作者：卢建晖 - 微软高级云技术布道师排版：Alan WangMicrosoft Phi-4 系列模型正式发布，延续先前发布的强推理 Phi-4 (14B)模型, 今天带来了 Phi-4-mini-instruct(3.8B)，以及 Phi-4-multimodal(5.6B)模型。我们可以从 Hugging face、Azure AI Foundry Model Catalog、GitHub M

MicrosoftReactor

1250人浏览 · 2025-03-04 18:06:41

MicrosoftReactor · 2025-03-04 18:06:41 发布

作者：卢建晖 - 微软高级云技术布道师

排版：Alan Wang

在这里插入图片描述

Microsoft Phi-4 系列模型正式发布，延续先前发布的强推理 Phi-4 (14B)模型, 今天带来了 Phi-4-mini-instruct(3.8B)，以及 Phi-4-multimodal(5.6B)模型。我们可以从 Hugging face、Azure AI Foundry Model Catalog、GitHub Models，以及 Ollama 获取使用模型。

Phi-4 除了在多语言、推理以及数学等方面的能力提升外，对于大家期待已久的 Function Calling 也终于支持了。与此同时，Phi-4-multimodal 更是作为全模态模型，具备了视觉、听觉、文本、多语言理解、强推理，以及编码等能力。我们可以把 Phi-4-mini / Phi-4-multimodal 部署在边缘终端，让更多的 IoT 应用场景在算力和网络受限的情况下，可以和生成式人工智能结合。接下来，我们一起探索全新的 Phi-4-mini 以及 Phi-4-multimodal。

Function Calling

这是社区期待已久的功能，有了 Function Calling，我们可以对 Phi-4-mini / Phi-4-multimodal 的文本能力进行扩展，结合搜索引擎，以及连接不同的工具等。如图所示，这是一个通过 Phi-4-mini 查询英超比赛信息的示意图：
在这里插入图片描述
示例代码

量化后的模型部署

在这里插入图片描述
我们可以把量化后的模型部署在边缘设备中，并结合 Microsoft Olive, ONNXRuntime GenAI 把 Phi-4-mini 部署在 Windows、iPhone、Android 等终端上。以下是一个在 iPhone 12 Pro 上运行的示例：

iPhone 12 Pro 运行示例

全模态 SLM

Phi-4-multimodal 是全模态的模型，支持文字、视觉、语音输入。或许大家对视觉场景已经非常熟悉，我们可以根据图片，直接生成代码。

示例

语音功能的整合让 Phi-4 在功能上有了更强的支持，以下是相关示例：

强推理性

Phi-4 (14B) 发布时，强推理性就是一个卖点，现在 Phi-4-mini 和 Phi-4-multimodal 虽然参数量减少了，但也具备了该能力，我们可以结合 Image 来测试强推理能力。例如上传一张图片，让 Phi-4-multimodal 能根据图片内容结合提示词更有序地生成项目代码。

示例代码

Phi-4-mini 和 Phi-4-multimodal 在有限的参数量上达到了一些 LLM 的效果。我们可以把 Phi-4-mini 和 Phi-4-multimodal 部署在边缘端，让我们的 PC、移动设备、IoT 具备更强的生成式人工智能能力。我们会陆续在 Phi Cookbook(https://aka.ms/Phicookbook)增加示例, 希望 Phi Cookbook 能成为你使用 Phi-4 的必备指南。

学习资源

微软开发者社区

微软开发者社区，邀请来自微软以及技术社区专家，带来最前沿的技术干货与实践经验。在这里，您将看到深度教程、最佳实践和创新解决方案。

更多推荐

技术速递｜构建你的第一个 MCP 服务器：如何使用自定义功能扩展 AI 工具

MCP 标准化了AI 工具在不同平台和应用（如 VS Code 中的 Copilot）上的可扩展性首先复用已有的 MCP 服务器，调查现有资源：你能认出发布者吗？能访问代码吗？自建服务器时，从简单入手，聚焦于解决特定问题，而不是一次性建全功能三大构建模块（工具、资源、提示）为设计 MCP 服务器能力提供了清晰框架MCP 不仅仅是关于和人工智能一起玩游戏（虽然那确实很有趣）。它的意义在于打破你的人工

微软开发者社区

技术速递｜新手指南：如何在 Foundry Local 中使用自定义模型

微软开发者社区

技术速递｜保护 VS Code 免受提示注入攻击

作者：Michael Stepankin排版：Alan Wang当聊天对话被间接提示注入污染时，可能导致 GitHub 令牌、机密文件泄露，甚至在用户未明确同意的情况下执行任意代码。本文将解释 VS Code 中哪些功能可以降低这些风险。VS Code 的 Copilot Chat 扩展在过去几个月中快速演进，新增了大量功能。它最新的 agent 模式允许你使用多个大语言模型（LLMs）、内置工