当前位置：首页 > 热水器 > 文章正文

若何评估算力存力质量？一文读懂SPEC/MLPerf/SPC-1三大年夜评测标准

编辑：[db:作者] 时间：2024-08-25 07:03:08

日前，工业和信息化部、中心网信办联合国家六部门，联合印发《算力根本举动步伐高质量发展行动操持》，从打算力、运载力、存储力以及运用赋能四个方面提出了到2025年景长量化指标，个中明确指出——到2025年，打算力方面，算力规模超过300EFLOPS，智能算力占比达到35%。

这也再次明确了算力运用的多样化。

实在近些年来我们逐步创造，随着智能打算的崛起，如今的算力就分为了传统算力和智能算力，而运用的创新也决定了评判标准的创新，我们也必须以新的眼力、新的标准来评判算力代价。

那么评判算力的工具有哪些呢？目前行业主流认识层面，对付传统算力依然是SPEC体系，而针对智能算力，近些年MLPerf成为了业界威信；至于更新的存力标准，则是SPC-1大展技艺的领域。
该当说，面向智能时期的标准已经多元化、多样化，但终极这些标准都反响出了运用处景下的性能、能效等核心数值表现，也将看不见摸不到的算力转变成了可以量化的指标。

从这个角度来说，SPEC、MLPerf、SPC-1将成为现在乃至未来一段韶光我们对付数字化的主要评判依据，而谁能够在这些评测体系中名列前茅，谁才能够成为数字化时期的领头羊，才真正代表了未来数字时期的发展方向。
下面，我们就将对这三大评测标准进行详细的先容。

SPEC，传统算力运用的试金石

做事器是数据中央IT根本举动步伐中最主要的设备之一，也是承载算力做事的硬件根本。
一贯以来，做事器性能都是行业关注的焦点，为此也产生了多种评判标准。
这个中，SPEC测试因其威信、专业、覆盖面广成为行业标杆，险些所有的做事器在出厂之前都要经由严格的SPEC测试，这也让SPEC成为了类似竞技体育中田径、拍浮一类的“传统王牌项目”。

为什么SPEC会如此受欢迎呢？这还要从它的历史谈起。
1988年，包括斯坦福大学、英特尔、IBM、Oracle、微软等环球数十所有名大学、研究机构、IT企业组成的第三方运用性能威信测试组织发起并成立了SPEC（Standard Performance Evaluation Corporation）标准性能评估组织，其目的便是确立、修正以及认定一系列做事器运用性能评估的标准。
而多年来随着云打算、容器等运用处景的不断变革，SPEC的评定项目也从做事器硬件扩展到了云端，如今形成了覆盖性能、云环境、Java运用、能耗、虚拟化环境等5个维度的综合测试平台。

SPEC CPU是SPEC评估整机打算处理能力的测试工具，也是其“看家本领”，如今最新的版本为SPEC CPU 2017。
虽然名字上是“2017”，但实际上它的测试项目却非常全面，测试项目覆盖了仿真剖析、基于人工智能搜索引擎优化、视频压缩等10个范例运用处景，43个基准测试的业务负载，是反响做事器整体性能的主要参考指标，也是竞争最为激烈的赛道。

比如在上面这份榜单中我们就看到，来自浪潮信息的八路做事器TS860G7在Peak测试成绩达到了3750分，在入围榜单的34772份成绩中排名第一，从而也冲破了单系统做事器性能天下记录，定义了x86做事器的性能顶峰。

如果你以为单机性能说服力不足的话，那么SPEC也供应了针对云平台性能测试的SPEC Cloud IaaS 2018和针对虚拟化性能测试的SPEC Virt。
前者紧张测试的是云平台的性能，即云平台上运行IO密集型和打算密集型负载，通过加压测试数据面性能、可扩展性以及掌握面性能来评估云平台的性能；后者则是云数据中央虚拟化性能的标准测试工具，紧张稽核在担保做事质量（QoS）的条件下，一台做事器上能够支配多少台虚拟机，当然数量越多SPECvirt性能总得分就越高。

那么谁又是这两项测试的良好者呢？这就不能不提到云海虚拟化平台。
一方面，云海OS多次冲破SPEC Cloud IaaS 2018测试记录，可以高效完成I/O、打算等各种负载的调度，并且性能增长还具有领先的线性扩展能力，完备可以知足用户从传统业务到新型大数据、人工智能等创新运用的上云需求。
而在虚拟化层面，云海虚拟化InCloud Sphere早在2021年就刷新了双路做事器平台榜单，以4679分冲破了已尘封四年之久的天下记录，成绩霸榜环球第一，较之前的测试最高分提升了39%。

可以说，SPEC奠定了做事器性能测试的基准，也是行业内广泛认可的测试办法，并被金融、电信、证券、能源等关键行业用户作为选择IT系统一项威信的选型指标。
不过随着运用业务的发展，数字化业务已经不仅仅局限于单一做事器、单一集群或者单一数据中央，运用处景也从传统打算扩展到了智能打算，乃至诸如当下流行的大模型运用都须要有一套新的评价标准和体系。

MLPerf，智能时期的定海神针

犹如竞技体育一样，田径拍浮三大球的比赛固然精彩，但是年轻人却更喜好滑板、霹雳舞、电子竞技等全新运动，全体大赛也须要这样的运动来赢得年轻人的关注。
同样在数字化运用中，随着智能业务的无处不在，传统的算力评估平台已经不能知足场景化的须要，因此就有了名为MLPerf的全新测试，并迅速得到了环球行业用户的认可。

MLPerf由图灵奖得主大卫•帕特森（David Patterson）联合顶尖学术机构发起成立，但它的历史要比SPEC短得多。
就在不久前的2020年，包括谷歌、英伟达、英特尔、哈佛大学、斯坦福大学等50余家环球AI领军企业及顶尖学术机构发起成立了非盈利性机器学习开放组织MLCommons，进而推出了MLPerf基准测试，甚至力于推进机器学习和人工智能标准及衡量指标。

但是比较SPEC自行提交成绩，MLCommons选择了每年组织4次测试，包括2次AI演习能力测试和2次AI推理能力测试。
个中，AI演习测试分为集群测试与单机测试两个场景，只稽核完成AI任务演习的韶光，韶光越快则代表性能越强；而推理测试则供应了数据中央和边缘侧2大场景，每个场景也有不同的测试项目，风雅度非常高。

AI演习是当下行业的热门，包括GPU在内的许多AI加速设备都是运用于该场景，尤其是在如今AIGC发达发展的情形下，GPU可谓是“一卡难求”，也侧面证明了AI演习的火爆。
而MLPerf测试这些年也在不断的迭代与演进中，从视觉、措辞到智能推举和强化学习都有对应的评判模型，并确保评测模型与业内的前沿成果同步更新，且每个模型设置多样化的稽核标准，表示了测试的及时性、专业性与创新性。

浪潮信息同样是MLPerf的“常客”。
自2020年伊始，浪潮信息就参与到MLPerf比赛中，通过智算架构和软硬协同的技能上风不断刷新AI打算的性能速率，连续两年夺得MLPerf的年度冠军榜首。

在不断斩获MLPerf冠军的同时，浪潮信息也绝不保留的将高效优化方法回馈至社区，推动AI技能的共同进步。
在MLPerf Training v0.7中，浪潮信息首创性提出效率更高的ResNet收敛性优化方案：在ImageNet数据集上，仅利用85%的迭代步数就达到了75.9%的目标精度，该优化方案将演习性能提升了15%。
目前，该方案已被社区成员采纳，并广泛运用到MLPerf Training V1.0测试中，让更多的用户因此受益。

这就彷佛一场比赛中，浪潮信息作为MLPerf测试中的“头等生”，不仅分享了成功履历，还优化了竞赛流程、提升了评审效率，以一己之力让MLPerf Training项目得到了超过式发展，也帮助MLCommons完善了AI测试基准，形成了推动家当发展的良性循环。

SPC-1，多元化存储评估，让数据代价最大化

刚刚我们谈到了太多的算力成分，的确由于算力在如今的IT家傍边霸占了举足轻重的地位，也成为了AIGC角力的关键。
但正如古语云：“不谋全局者，不敷谋一域”，管理者不仅要看到面前的需求，更须要考虑整体的、未来的长远需求。
以AIGC为例，虽然目前行业对算力需求兴旺，但伴随着行业供货能力的不断提升，这股需求很快就会转移到后真个存储上来，毕竟再强大的算力和算法也要为业务做事，而数据本身便是业务直接表现。
如此看来，存储也将成为继算力之后的又一个热门领域。

那么比较算力测试的SPEC和MLPerf，存储领域测试标杆又是什么呢？这就不能不提到环球存储性能委员会（SPC）。
它是由天下级存储供应商联合组成的一个非盈利机构，是一个专注于存储行业供应商性能评测的中立机构。
针对存储行业的需求和关注，SPC创建了环球第一个存储行业标准的性能标准——SPC-1基准测试，实现了从组件级评估到完全的存储系统丈量，供应了严格的、经由审计的、可靠的和可重复验证的性能度量。

不过与算力测试不同，存储的评判标准要繁芜得多。
刚刚在先容中我们提到，无论是SPEC还是MLPerf都有“成绩越高越好”、“耗时越短越好”、“跑得越快越好”等项目，评判的标准一览无余。
但是对付存储来说，虽然性能也是关键性的成分，但是由于运用处景的分外性，容量、稳定性、可靠性等标准同样非常主要。
俗话说：“设备有价数据无价”，存储须要综合考量各方面的特性，而不能“唯性能论”。

为此，SPC-1基准测试也设计了多种场景，比如关键业务运用处景下的负载模型、比如覆盖构造化数据为主的数据库，再比如电子邮件等在线事务处理（OLTP）运用；在稽核指标上也侧重用于读写相应韶光敏感度、事情负载的多样性及动态变革、性能表现永劫光稳定可靠等共计8种数据访问行为的仿照，这样就保障了测试的全面性和公道性，也因此受到了行业的同等认可。

比如可靠性和稳定性，这是存储设备的关键特性，乃至在某些特定行业中，保障数据的稳定、安全运行乃至比性能出色更为紧张。
为此，SPC-1在全体测试过程中的多个阶段都会考验数据的同等性，比如初始化阶段、SPC度量阶段、关电重启再校验数据的同等性等等，确保存储能够经受高可靠性的严格测试。
而SPC-1长稳测试阶段则哀求最大的可持续I/O要求至少须要8小时，浮动范围仅为5%，只有这样才能确保系统长期持续稳定的性能。

同样被重视的还有延时，这也是算力测试中随意马虎被忽略的方面。
SPC-1基准测试在延时方面有三个指标，分别是均匀延时、延时带宽比拟图和总体相应韶光。
就业务场景来说，这三个指标可以很好反应不同阶段的业务表现，特殊是第一个均匀延时更是行业通用的评判标准。
我们看到，2021年8月浪潮高端全闪HF18000G5在测试中得到2300万IOPS，均匀延时0.294毫秒（低于0.3ms），达到了行业领先的水平。
而在相应韶光与吞吐量比拟方面，HF18000G5表现也非常不错，供应了不错的存储系统稳定性和运用潜力。

多元化的测试标准才能全面稽核存储，那是不是意味着知足这些需求的“六边形战士”在本钱上也会很高，乃至超过不少客户的承受能力呢？SPC-1也充分考虑到了这个问题，并供应了总性价比的评判标准——用系统总价格除以SPC-1 IOPS或者用总系统价格除以SPC-1 ASU的容量，这样就得到了每千IOPS或者每GB容量的性价比，帮助用户进行更好的评估。

比如刚刚我们提到的高端全闪HF18000G5，它的IOPS性能测试为2300万（精确值是23001502），这样算下来SPC-1性能方面的性价比为$375.56/SPC-1 KIOPS，远超过第二名；容量价格比为$10.58/GB，比许多人家里的电脑存储还要划算。

从算力扩展到存力爆炸，从电子时期到数字时期，正是不断的创新和变革推动了社会的发展。
而面向数字化，我们须要一套针对算力、存力的评定办法，用量化的指标、前瞻性的思维让数字时期加速。
无论是SPEC还是MLPerf亦或是SPC-1，正是为我们供应了一套系统、科学的评估方法，让我们能够创造什么是好的做事器、存储和云平台。
而以浪潮信息为代表科技企业，在各个赛道中都有出色的成绩表现，让我们有情由相信，在未来的智算时期的生态体系中，我们将是至关主要的一环。

本站所发布的文字与图片素材为非商业目的改编或整理，版权归原作者所有，如侵权或涉及违法，请联系我们删除，如需转载请保留原文地址：http://www.baanla.com/rsq/168310.html

上一篇：电子烟产品寄递新规宣告每人天天限寄一件

下一篇：返回列表

若何评估算力存力质量？一文读懂SPEC/MLPerf/SPC-1三大年夜评测标准

相关文章

推荐标签

热水器推荐

热水器热门