OpenVINO™ 工具套件:一款可轻松实现“一次写入,处处部署”的开源 AI 工具套件。
面向 AI 推理基准测试的 OpenVINO™ Model Hub
探索 OpenVINO 工具套件在英特尔® 硬件平台上为从边缘到 AI PC 的各类 AI 模型带来的性能差异。获取最新的 OpenVINO 工具套件性能基准测试,了解精选的领先生成式 AI (GenAI) 和大型语言模型 (LLM) 在英特尔 CPU、内置 GPU、NPU 和加速器上的表现。
模型性能: 了解顶级模型在英特尔硬件上的表现。
硬件对比: 为您的解决方案找到合适的英特尔硬件平台。
借助英特尔® AI Products 进行开发
注册了解独家消息、提示和版本发布
率先了解关于英特尔® 发行版 OpenVINO™ 工具套件的一切新内容。注册后,您可以获得抢先了解产品更新和发布信息、独家受邀参加网络研讨会和活动、培训和教程资源、竞赛公告以及其他突发新闻。
AI 术语表
一般条款
推理引擎: 用于 AI 推理预测的处理器类型,例如 CPU、GPU 和加速器。
模型类型与性能对比指标
GenAI 模型(大型语言模型): 采用海量文本数据训练,具备生成和理解语言能力的 AI 模型。
- 首 Token 延迟: 接收提示后生成第一个 token 所用的时间。
- 第二 Token 延迟: 生成每个后续 token 所需的时间。
传统 AI(视觉模型): 采用经典算法解读图像的 AI 模型。
- 吞吐量(每秒帧数 [FPS]): 每秒处理的帧数和图像数。
- 延迟(每帧): 处理每个图像所需的时间。
传统 AI(自然语言处理 [NLP] 模型): 采用基于规则或统计学方法处理语言任务的 AI 模型。
- 延迟: 模型处理查询的响应速度。
- 吞吐量(每秒查询数): 每秒处理的查询数量。
GenAI(扩散)模型: 这些 AI 模型可创建图像、文本等数据和内容。
- 图像生成延迟: 根据输入生成图像所需的时间。
- 吞吐量: 每秒生成的图像数量。
精度级别
FP32(32 位浮点): 采用 32 位表示实数的高精度格式,广泛用于早期 AI 模型及需要高精度的任务。
FP16(16 位浮点): 相较于 FP32 精度较低的格式,常用于加速计算并降低内存使用,适合不需要极高精度的场景。
BF16 (Bfloat16): 16 位浮点的变体,范围更大,类似于 FP32,但精度低于 FP16。因其高效率和对大型模型的适应性,在现代训练和推理中经常使用。
Int8(8 位整数): 一种精度较低的格式,常用于推理,可显著提升计算速度,同时降低内存和功耗需求。通常用于边缘和移动设备,需要量化。
Int4(4 位整数): 一种低精度整数格式,偶尔用于优先考虑效率而非精度的轻量级推理应用。
资源
社区与支持
探索各种参与方式,并及时了解最新公告。