AI 术语表

推理引擎: 用于 AI 推理预测的处理器类型,例如 CPU、GPU 和加速器。

GenAI 模型(大型语言模型): 采用海量文本数据训练,具备生成和理解语言能力的 AI 模型。

  • 首 Token 延迟: 接收提示后生成第一个 token 所用的时间。
  • 第二 Token 延迟: 生成每个后续 token 所需的时间。

传统 AI(视觉模型): 采用经典算法解读图像的 AI 模型。

  • 吞吐量(每秒帧数 [FPS]): 每秒处理的帧数和图像数。
  • 延迟(每帧): 处理每个图像所需的时间。

传统 AI(自然语言处理 [NLP] 模型): 采用基于规则或统计学方法处理语言任务的 AI 模型。

  • 延迟: 模型处理查询的响应速度。
  • 吞吐量(每秒查询数): 每秒处理的查询数量。

GenAI(扩散)模型: 这些 AI 模型可创建图像、文本等数据和内容。

  • 图像生成延迟: 根据输入生成图像所需的时间。
  • 吞吐量: 每秒生成的图像数量。

FP32(32 位浮点): 采用 32 位表示实数的高精度格式,广泛用于早期 AI 模型及需要高精度的任务。

FP16(16 位浮点): 相较于 FP32 精度较低的格式,常用于加速计算并降低内存使用,适合不需要极高精度的场景。

BF16 (Bfloat16): 16 位浮点的变体,范围更大,类似于 FP32,但精度低于 FP16。因其高效率和对大型模型的适应性,在现代训练和推理中经常使用。

Int8(8 位整数): 一种精度较低的格式,常用于推理,可显著提升计算速度,同时降低内存和功耗需求。通常用于边缘和移动设备,需要量化。

Int4(4 位整数): 一种低精度整数格式,偶尔用于优先考虑效率而非精度的轻量级推理应用。