AI与高速运算时代来临:采购白牌服务器会有什么潜在风险?

随着32GT/s 的PCIe 5.0产品问市后,高速运算及AI人工智能开始显露出其效能,特别是生成式AI更迅速地融入进入人们的日常生活,逐渐在各产业扮演重要角色,同时也带动对高速服务的依赖需求不断增长。这个效应带动了服务器产业的持续成长,同时也加速了服务器的世代升级周期缩短。

客制化数量不大的白牌市场或DIY服务器市场客户在采购时,通常会考虑到成本因素,因此会分散采购后,再客制化组成所需的系统规格,其中机壳、主板及储存装置更是系统稳定性与否的重要关键部分,但随着主板开始导入高速的PCIe 5.0技术后,此类型的服务器将面临更严峻的潜在风险挑战。

白牌服务器五大潜在风险

1. 散热不平均

支持PCIe 5.0的CPU,其TDP(Thermal Design Power)都大于350W以上,对散热要求非常高!不同的主板其CPU设计的位置也不同,不一定能跟机壳风扇完全对应,此时就会引发CPU的散热不平均问题。

2. 机壳风扇效能不够

当CPU的TDP大于350W时,通常必须搭配高转速或高电流的风扇来满足其散热需求,当机壳厂商所安装的风扇规格不够时,就会导致整体散热效能不足,造成系统温度不断升高,影响运算访问速度,甚至严重致系统热当机。

Source:双鸿、富果研究部

3. Cable走线无法优化

由于机壳与主板是分开采购,主板的连接器位置可能与机壳设计的走线不一致,这时就会造成散热风流的干扰,也会降低散热的效能,此类风险问题较不容易于第一时间察觉。

4. 内部线材质量问题

进入高速的PCIe 5.0时,对于缆线的高频特性要求非常的高,通常机壳厂商对于高频技术并不专业,此时所配置的缆线有可能因为高频特性不佳而导致系统效能降低。

5. 高频背板设计挑战

同样的情境还会引发另一个潜在问题,因机壳厂商对高频技术并不专业,因此在设计储存装置的背板时会面临极高的挑战,如Impedance mismatch、Insertion loss/Return loss过大及Cross talk等问题的产生,导致讯号干扰过多而降低服务器效能及系统稳定性。

上述的潜在风险,除了会导致系统效能大幅降低、CPU寿命缩短及系统不稳定外,更严重时将导致系统不断重启、关机或热当机。所影响的会是布署在服务器上的应用服务状态长时间不稳定或中断服务,甚至造成数据的流失,这些将会造成严重的使用者负面体验,并引起众多客诉,进而影响业绩及客户整体数量,品牌的声望也岌岌可危。

百佳泰使用者可靠度模拟解决方案

百佳泰针对这些潜在风险,提供一个使用者可靠度模拟解决方案来验证,确保服务器的出货质量,可靠度仿真可根据下面四个方向去做规划及评估:

百佳泰会参考服务器硬件的工作温度上下限,再衡量其应用情境,规划出不同的高低温循环周期,以确认在循环的高温期间或低温期间服务器运作状态。

此外,百佳泰也会参考此服务器所布署的应用服务类型来规划工作负戴的项目及强度,例如:针对高速运算服务器加强CPU & DDR负载、针对数据储存服务器则加强Storage负载等。每个工作负载验证周期都会再次确认各部位的功能状态,同步我们也会详细记录每个结果报告,可运用此份报告比对其效能是否有任何异常变化。

Faster, Easier, Better!您最佳的服务器生态应用顾问

百佳泰身为高频高速生态及应用顾问公司,具备完整的设备环境及丰富的项目经验,能够提供Faster/Easier/Better的高质量服务:

Faster:
1. 具有完善的各型式Temperature Chamber,温度范围为-100C~+200C、内部空间最大的步进式可支持三座52U机柜置放、热负载最大可达65KW。
2. 拥有丰富的项目经验,能在最短的时间内规划其解决方案并执行。

Easier:
1. 可靠度模拟解决方案只需要3-5天即能验证上述可能的潜在风险,不需要花费大量的金钱与时间。
2. 如果验证出问题,百佳泰可提供Problem isolation、Debug support及solution suggestion让您快速找出问题并解决。

Better:
1. 百佳泰也可以利用可靠度模拟解决方案提供服务器生命周期的评估,让您能预估服务器运作的年限并做布署计划。
2. 百佳泰可以跟您合作在关键组件的质量做把关,提前预防可能的潜在风险并把发生机率降到最低。

百佳泰致力於提供客戶Faster、Easier、Better的高品質服務體驗

若您对于服务器生态圈有任何测试、验证或是顾问咨询服务有相关的进一步需求,欢迎在线浏览以下服务,或是透过在线窗体与我们联系,百佳泰服务团队将诚挚为您服务!

延伸阅读