40年前,再升个人电脑的新插问世将强大的计算能力压缩至人们的桌面。20年前,上翅智能手机的再升诞生拉近了人与人之间的距离。今天,新插AI 助手悄无声息地渗透到我们的上翅生活,改变着我们与世界互动的再升方式。
本文引用地址:
在上周刚刚落幕的新插 OpenVINO™ DevCon 中国系列工作坊北京站活动上,众多行业先锋和创新者们展现了 AI 技术在多个领域的上翅实际应用。一个明显的再升趋势是:无论是行业领军企业还是独立开发者,无一不在全力以赴地“All In AI”。新插这些创新的上翅解决方案,不仅标志着当前各行业对AI的再升应用正进入爆发式增长阶段,也预示着 AI 将与我们的新插生活更紧密地联系在一起——从职场到家庭,从医疗到娱乐,上翅开启一个充满可能性的未来。
OpenVINO™ 2024.4 版上线,支持最新英特尔® 酷睿™ Ultra 处理器(第二代)并显著提升大语言模型推理性能
英特尔 OpenVINO™ ,作为一款先进的 AI 工具套件,为开发者们提供了实现理想的 AI 部署的平台。英特尔不断优化其性能,特别是提升其在PC和小型设备上运行大语言模型(LLM)的能力。最新发布的 OpenVINO™ 2024.4 版本,为开发者带来了诸多关键功能和性能改进,旨在确保大语言模型在所有场景中,无论是边缘计算还是数据中心,都能实现卓越的 AI 性能。
首先,OpenVINO™ 2024.4 版本的一大亮点是新增了对最新英特尔® 酷睿™ Ultra处理器(第二代)的支持:
● 在客户端技术方面,支持全新的 Xe2 GPU 架构,该架构搭载于最新发布的英特尔® 酷睿™ Ultra 处理器(第二代)平台,并由英特尔® Xe矩阵扩展(英特尔® XMX)加速技术驱动。Xe2 架构在处理计算密集型任务,例如矩阵乘法方面,能够带来显著的性能提升,对于加速大语言模型的部署至关重要。
● 英特尔® 酷睿™ Ultra 处理器(第二代)还引入了一个更强大的神经处理单元(NPU),其推理吞吐量相较前一代有重大升级。
在模型优化和内存管理方面,OpenVINO™ 2024.4 版本有效降低了 AI 部署的成本,优化了内存使用,并显著减少了延迟。
● 创建了高度优化的 GPU 原语,如缩放点积注意力和旋转位置嵌入,有效降低执行复杂 AI 操作的成本。此外,对内存管理进行了改进,更高效地支持带有压缩权重的模型,使得大语言模型能够在资源受限的环境中,如笔记本电脑和边缘设备上,能够以最小的内存占用运行。
● 在英特尔® 至强® 处理器上运行时, OpenVINO™ 现支持由 Open Compute Project 规范定义的 mxfp4 格式,这使在运行大语言模型时,相比于 BF16 精度,能够减少内存消耗,同时提高处理第二个 Token 的延迟性能。
在模型支持方面,OpenVINO™ 2024.4 覆盖更多生成式 AI。
● 支持 GLM-4-9B Chat, MiniCPM-1B, Llama 3 和 3.1, Phi-3-Mini, Phi-3-Medium 以及 YOLOX-s 模型,并新增了一系列值得关注的 Notebook。
● 与 Hugging Face 合作,更新了 Optimum-Intel 解决方案,使得在利用 Hugging Face API 运行模型的同时,能够使用 OpenVINO™ 高效地导出和压缩模型,以供 OpenVINO™ GenAI 套件 API 使用。
OpenVINO™ DevCon 尽显社区创新活力,背包里的 AI PC 定义智能新纪元
今年,OpenVINO™ 发布了多个更新版本,且持续通过与开发者的交流和互动,将行业趋势与OpenVINO™ 的最新技术带给开发者,助力开发者系统进阶。在近日举办的OpenVINO™ DevCon中国系列工作坊北京站中,数百位开发者亲临现场,探讨了“OpenVINO™ 加速PC及小型设备性能”的应用潜力,并展示了他们在语音智能交互、媒体娱乐、医疗分析等领域利用OpenVINO™ 实现的创新成果。
人形机器人展示:将大模型“装进”AI PC,小巧机身浓缩超级智慧