你猜得没错
这就是“英大师”闭关修炼多日的
(相关资料图)
「第四代英特尔®️至强®️可扩展处理器」
具体的修炼“心法”,是这样的
↓
这一代至强,被称为
英特尔10年来数据中心级处理器最大提升
首次采用了“多芯粒”工艺
延迟更低、带宽更大、扩展性更好
核心的数量也进一步提升
根据已经剧透的测试数据
这家伙超级“能打”
为啥要求这么“能打”
因为你不知道作为一枚C位出道的CPU
每天都要扛多重的活儿、面对多少挑战
最基础的活,是通用计算
↓
这是CPU从被发明出来的第一天起
承担的最主要责任
时至今日,大多数上层业务应用
都是靠CPU的通用计算能力在支撑
↓
但是,要想在数据中心领域混出名堂
光会玩通用计算、扛普通任务,还远远不够
所以,它们要面对极其复杂的“KPI”
没点硬功夫,分分钟累吐血
↓
我们先来捋一捋
在当下的数据中心、云战场
CPU的KPI都包含了哪些“幺蛾子”
↓
总之吧,在这些新兴战场
CPU们总是被寄予厚望
各种锅,甭管是不是CPU的本职工作
全都一股脑的甩锅给CPU了
面对这些不负责任的“锅”
为了给CPU们减负
常规的套路就是搞一堆外挂
用各种加速卡来分担
↓
但是“英大师”不信邪
他深知打铁还要自身硬
除了外置加速卡、IPU的思路
“英大师”对这一代至强进行了“醍醐灌顶”
↓
“英大师”把一套加速心法
注入到第四代至强可扩展处理器体内
这便是内置的超强硬件加速器
↓
“英大师”久经沙场
深知内置加速器和传统外挂的区别
“内置”比“外挂”与CPU内核配合更默契
也不需要浪费体力进行片外传输
实战中,高下立现
↓
接下来,我们就看看
“英大师”带领新修炼的法宝
如何勇闯「数据中心十八铜人阵」
一路打怪升级的
英特尔数据保护与压缩加速技术
虽然名为「辅助」,打起架来却很「主力」
它最擅长的是对付压缩和加密这两大铜人
↓
它可以在任何状态加密、压缩数据
性能飙到惊人
比如完成对称加密,速率高达100Gb/s
大大降低CPU本体的开销
↓
因此,但凡涉及压缩和加密业务
(网络安全、存储、虚拟机、大数据、文件系统、数据库等等)
采用这一代至强内置的QAT技术
都能达到事半功倍的效果
比如,在英特尔QAT的加持之下
NGINX服务器每秒新建连接数量
可最高提升3.2倍之多
英特尔动态负载平衡器
天生练就了一手「平衡」绝技
不管网络的「山路」多么陡峭
有了DLB,都可以健步如飞
↓
实际对战中
DLB可以提升队列管理和调度效率
在多个cores之间实现分布式处理
多核同心协力扛活,效率大大提升
尤其面对各种网络通信业务
(安全网关、负载均衡、大象流处理、UPF、vSwitch)
不同核心均衡调度
可以获得更强劲的吞吐能力
英特尔数据流加速器
可以加速数据移动和数据转换操作
简单讲,就是搬砖交给DSA
把CPU的内核周期解放出来干别的
实战中可以用于
网络/存储加速、内存管理、工作负载加速
比如减少内存复制/清零开销
或者提高网络数据包的复制速度
再比如传输中,完成数据完整性检查
几乎不会增加CPU的额外开销
↓
据验证,在Open vSwitch用例中
使用英特尔DSA加持
可以将数据吞吐量提升2.5倍
英特尔存内分析加速器
这可是数据库战场的神之技能
在应对内存数据库和分析场景时
IAA可以大幅压缩数据
并提高内存带宽和CPU效率
IAA的能力包括压缩/解压缩加速
CRC校验加速、分析语句加速…
在RocksDB数据库实测中,开启IAA加速
数据库QPS提高了94%,p99时延降低52%
所以,在内存数据库业务场景
(各类商用或开源)
或者用于大数据分析的列式存储场景
让新一代至强带着IAA上,就对了
英特尔高级矩阵扩展
最后这个AMX
主战场是当下最火的人工智能
用更快的矩阵计算方法来搞定AI难题
各种场景的AI算法全部通过硬件来扛
(卷积、内积、矩阵乘法、神经网络)
有了AMX的硬件加速能力
AVX-512指令集用起来更加挥洒自如
AI推理和训练的性能都能得到大幅提升
对付各种AI用例全部不在话下
↓
AMX的最新测试结果也出炉了
比如加速Tiled乘法运算时
最大吞吐量比在CPU内核上启用AVX-512
高出了足足八倍