Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
@李东岳 给忘了- -我现在用的是2.3.1,6,和2006。这三个版本李老师有兴趣么?我下周跑几个看看
@cccrrryyy 我估计2006可能没问题。9以后的算例跟9之前的,会提示version不对,要康康康的一顿改加version,贼麻烦
@李东岳 好,那我抽空跑个2006的试试。
@李东岳 2006也是一顿加version哈哈,我这边两款测的结果(2000步): EPYC 7H12 1节点128核 7312s EPYC 7532 1节点64核 7576s 还有个7543的,据说是比7532快一点,有空我也试试看看。
@cccrrryyy 老铁你那面只有1个节点么?一个节点别跑了,我都不好意思麻烦老铁,这跑一个算例要跑2个多小时。。。
@李东岳 我看李老师你列的几个主要是单节点的速度。多节点的话,是不是需要保证没有其他作业,就是节点独占?
@cccrrryyy 是,跑节点的话,要保证节点独占,是不是你们不太好跑。不好跑就算了。
@李东岳 调度系统应该有命令可以实现这个,不过这个和我们的实际应用场景不符合的。我测测不同节点数情况下的加速比看看,对这个也听感兴趣的。
@李东岳 测了下7H12那个,都是节点独占: 1节点128核 7312s 2节点128核 3372s 4节点128核 1811s 这个加速效果可以啊
@cccrrryyy 4节点256核吧? 可以,线性,达标
@李东岳 不是,总核数都是128核。这种测试应该是保持核数不变还是单节点核数不变?
你说的这种我再测测。
@李东岳 7H12那个,重新测了下: 1节点 128核 7312s 2节点 256核 3237s 4节点 512核 1334s
@cccrrryyy 不错啊,超线性!挺好挺好!
1节点128核 7312s 2节点128核 3372s 4节点128核 1811s
1节点128核 7312s
2节点128核 3372s
4节点128核 1811s
不过这个你跑的没问题?都是128核,4节点比1节点快了4倍?
@cccrrryyy 我再三确认过,因为我自己也觉得有点神奇了。
我觉得保持总核数128不变的,和我之前测的那些差不多。多节点并行就是很快,节点独占的情况下相当于用4台机器的性能(L3缓存什么的)去支撑这个计算。
所以保持总核数不变,和保持单节点的核数不变,有什么区别呀?从性价比来说,如果一定要节点独占,很明显我应该用4节点512核,更快,单价和4节点128核一样。
@cccrrryyy 这个帖子有点逐渐跑题了,我新搞一个帖子,挪过去之后大家讨论。
@cccrrryyy 在 HPC节点独显效率 中说:
我这面主要想不明白的是这个数据。我的印象里:都是128核的情况下,4节点肯定是要比1节点要快,但不至于快4倍。也就快个不到2倍。L3缓存换成4倍也不至于快4倍哟。
@李东岳 网络带宽小于内存带宽的1/4可以出现这种情况,网络带宽制约非常明显的时候才能出现计算性能随节点数量线性scale-up的情况
@李东岳 李老师,我在超算平台测试2000W算例,三节点并行64*3,计算两千步总耗时58s?!
@luofq-sysu 应该不太可能的样子 ..
@李东岳 李老师,抱歉乌龙了,这个是超算支持工程师测试的,他应该重新blockMesh了。我自己亲手测试的结果是,3节点并行192核心,2000步总耗时——ExecutionTime = 2696.54 s ClockTime = 2758 s。
贴一个CPU信息:Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz