HPC节点独显效率

cccrrryyy

@李东岳给忘了- -我现在用的是2.3.1，6，和2006。这三个版本李老师有兴趣么？我下周跑几个看看

李东岳

@cccrrryyy 我估计2006可能没问题。9以后的算例跟9之前的，会提示version不对，要康康康的一顿改加version，贼麻烦

cccrrryyy

@李东岳好，那我抽空跑个2006的试试。

cccrrryyy

@李东岳 2006也是一顿加version哈哈，我这边两款测的结果（2000步）：
EPYC 7H12 1节点128核 7312s
EPYC 7532 1节点64核 7576s
还有个7543的，据说是比7532快一点，有空我也试试看看。

李东岳

@cccrrryyy 老铁你那面只有1个节点么？一个节点别跑了，我都不好意思麻烦老铁，这跑一个算例要跑2个多小时。。。

cccrrryyy

@李东岳我看李老师你列的几个主要是单节点的速度。多节点的话，是不是需要保证没有其他作业，就是节点独占？

李东岳

@cccrrryyy 是，跑节点的话，要保证节点独占，是不是你们不太好跑。不好跑就算了。

cccrrryyy

@李东岳调度系统应该有命令可以实现这个，不过这个和我们的实际应用场景不符合的。我测测不同节点数情况下的加速比看看，对这个也听感兴趣的。

cccrrryyy

@李东岳测了下7H12那个，都是节点独占：
1节点128核 7312s
2节点128核 3372s
4节点128核 1811s
这个加速效果可以啊

李东岳

@cccrrryyy 4节点256核吧？
可以，线性，达标

cccrrryyy

@李东岳不是，总核数都是128核。这种测试应该是保持核数不变还是单节点核数不变？

你说的这种我再测测。

cccrrryyy

@李东岳 7H12那个，重新测了下：
1节点 128核 7312s
2节点 256核 3237s
4节点 512核 1334s

李东岳

@cccrrryyy 不错啊，超线性！挺好挺好！

1节点128核 7312s

2节点128核 3372s

4节点128核 1811s

不过这个你跑的没问题？都是128核，4节点比1节点快了4倍？

cccrrryyy

@cccrrryyy 我再三确认过，因为我自己也觉得有点神奇了。

我觉得保持总核数128不变的，和我之前测的那些差不多。多节点并行就是很快，节点独占的情况下相当于用4台机器的性能（L3缓存什么的）去支撑这个计算。

所以保持总核数不变，和保持单节点的核数不变，有什么区别呀？从性价比来说，如果一定要节点独占，很明显我应该用4节点512核，更快，单价和4节点128核一样。

李东岳

@cccrrryyy 这个帖子有点逐渐跑题了，我新搞一个帖子，挪过去之后大家讨论。

李东岳

1节点128核 7312s
2节点128核 3372s
4节点128核 1811s

我这面主要想不明白的是这个数据。我的印象里：都是128核的情况下，4节点肯定是要比1节点要快，但不至于快4倍。也就快个不到2倍。L3缓存换成4倍也不至于快4倍哟。

heike256

@李东岳网络带宽小于内存带宽的1/4可以出现这种情况，网络带宽制约非常明显的时候才能出现计算性能随节点数量线性scale-up的情况

luofq-sysu

@李东岳李老师，我在超算平台测试2000W算例，三节点并行64*3，计算两千步总耗时58s？！

李东岳

@luofq-sysu 应该不太可能的样子 ..

luofq-sysu

@李东岳李老师，抱歉乌龙了，这个是超算支持工程师测试的，他应该重新blockMesh了。我自己亲手测试的结果是，3节点并行192核心，2000步总耗时——ExecutionTime = 2696.54 s ClockTime = 2758 s。

贴一个CPU信息：Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz

CFD中文网