第五代英特尔® 至强®可扩展处理器(以前代号 Emerald Rapids)引入了一种全新的可靠性、可用性和可维护性 (RAS) 功能,称为英特尔® In-Field Scan。这是一系列工具,旨在帮助系统管理员快速轻松地查找随时间推移而出现故障的处理器。英特尔®现场扫描具有将包含在当前和未来处理器上的功能路线图。现场扫描 (SAF) 和阵列内置自检 (BIST) 是现场扫描家族中的前两项功能,均在第五代英特尔® 至强®处理器上提供。
英特尔® In-Field Analyzer 的侵入性最小,旨在快速测试一个内核,同时让节点中的所有其他内核继续运行客户工作负载。
Scan* 是检测半导体器件故障的行业标准方法。到目前为止,扫描已被芯片制造厂的专用测试设备使用。英特尔在大批量生产 (HVM) 过程中使用扫描来测试处理器。
Scan-At-Field使客户能够运行英特尔制造扫描测试的子集,以检查各个处理内核的故障。使用英特尔提供的测试模式(称为扫描测试图像),可以独立测试处理器封装中的每个内核,以确认正常运行。
阵列 BIST 检查每个内核中的 L1(级别 1)和 L2(级别 2)缓存以及许多寄存器文件和数据阵列。作为内置自测试 (BIST),没有要加载的测试图像;所有测试都由每个内核中的专用测试模块协调。
SAF 和 ArrayBIST 的高级技术概述在 查找实时机群环境中的故障组件 技术论文中提供。有关系统要求和如何运行现场扫描的详细信息,请参见 第五 ®代智能英特尔® 至强®处理器的英特尔现场扫描启用指南。
英特尔®现场扫描是可靠性和可用性服务领域向前迈出的重要一步,因为它使客户能够使用行业测试功能来快速识别其车队中的缺陷设备。
在平台上启用英特尔®现场扫描需要硬件和软件。以下是要求摘要。
英特尔®现场扫描经过设计和优化,供系统管理员用于定期测试机组,以确保处理器正常运行。英特尔®现场扫描为系统管理员提供了非常快速的处理器测试,该测试可以在活动节点(即在线并运行用户应用程序的节点)上运行,而不会中断整个节点的作。在这种情况下,术语 “非常快” 表示 ~200ms 或更短。
建议对队列进行定期测试,以查找随时间推移而出现故障的组件。测试机群的频率以及测试范围有多大是一个复杂的问题。许多变量都会发挥作用,例如:处理器运行了多长时间;处理器的预测时间故障 (FIT) 2 率是多少;客户对SDE(无记录数据错误)的容忍度是多少;以及系统管理员愿意用于主动系统维护的时间。
在 实时机群环境中查找故障组件技术论文 提供了运行现场扫描频率的注意事项和示例。
® 《第 5 代英特尔 至强处理器英特尔现场扫描启用指南》包含有关如何运行、测试以及理解结果的详细信息。
发布了第 5 代英特尔® 至强®处理器的英特尔®现场扫描测试映像以及检查版本或加载新映像的说明(需要 NDA 帐户 - 如何申请英特尔®资源和文档中心)。
英特尔®现场扫描申请 已发布 (需要 NDA 帐户 - 如何申请英特尔®资源和文档中心)。
在拥有数十万或数百万个处理器的队列中,故障可能会定期发生。尽快发现这些缺陷是最大限度地减少客户运营中断的关键。
英特尔通过提供多种工具和功能路线图来测试处理器的正确运行,从而引领行业发展潮流。英特尔® In-Field Scan 扩展了这些测试功能,以改善系统管理员对设备的管理。
英特尔还提供英特尔® Data Center Diagnostic Tool(英特尔® DCDiag)。英特尔® DCDiag 是一套有条不紊地检查大多数 SoC 功能(包括每个微处理器内核功能)的测试。通过验证每个 DCDIAG 计算是否正确,而不仅仅是确认测试是否正确完成执行,DCDIAG 能够检测多种类型的错误,包括表现为无提示数据错误的故障。有关英特尔® DCDiag 的更多信息,请访问此 链接。
英特尔® In-Field Scan 和 英特尔® DCDiag 是相辅相成的测试工具。英特尔® In-Field Analyzer 的侵入性最小,旨在快速测试一个内核,同时让节点中的所有其他内核继续运行客户工作负载。英特尔® DCDiag 是一套全面的处理器测试套件,在整个处理节点专门用于测试时最为有效。由于这些工具运行的测试内容不同,英特尔发现每个工具都能在被测试的处理器中识别不同的故障。
注意: 并非所有第五代英特尔® 至强®处理器的 SKU 都支持英特尔®现场扫描。