登录社区云,与社区用户共同成长
邀请您加入社区
魏新宇微软 AI 全球黑带高级技术专家著有《大语言模型原理、训练及应用》《金融级 IT 架构与运维》《OpenShift 在企业中的实践》v1&v2、《云原生应用构建》。想了解更多 AI 知识欢迎关注作者书籍和Github。
作者:胡强辉 -微软 AI 全球黑带高级技术专家「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!在全球数字化浪潮的推动下,大语言模型凭借其卓越的自然语言处理能力,引领着自然语言理解与生成的新纪元。但与此同时,数据随之呈爆炸式增
Azure AI Agent Service 更多是对特定智能任务的单 Agent 进⾏定义,比如你可以定义⼀个数据挖掘的智能体,也可以定义⼀个链接 Azure Function 的智能体,更可以利⽤ Function Calling 接入第三⽅邮件发送服务的智能体等。
作者:胡平 -微软云人工智能高级专家「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!
作者:魏新宇 - 微软 AI 全球黑带高级技术专家「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!Phi-4 在仅有 140 亿(14B) 个参数的情况下,通过创新的训练方法和高质量的数据,展现出了媲美甚至超越一些更大规模模型
(Direct Preference Optimization,直接偏好优化)不使用强化学习算法,而是直接利用人类的偏好数据,通过优化目标函数,使模型输出更符合人类偏好。相比之下,监督学习的方法更直接高效:通过人类提供的偏好数据,直接告诉模型什么是好的输出,构建损失函数,调整模型参数。四种方法中,ReFT、RLHF 和 RLAIF 都使用了 PPO 作为强化学习算法,区别在于奖励信号的来源不同:R
越来越多人开始享受到 AIGC(Artificial Intelligence Generated Content,人工智能生成的内容)所带来的高效、快捷和便利,但 AI 生成的内容有时可能会存在一些错误、瑕疵或疏漏。(AI Content Safety),这是指利用技术对AI生成的内容进行审核和监测,以识别和屏蔽不当、违规或有害信息的做法。输出结果展示了如何创建或更新黑名单,添加黑名单项,使用黑