Pi集群机时统计常见问题集

机时月报

高性能计算中心每月会向用户发送上月的机时使用报告,简称“月报”。 月报记录了用户该月机时使用量、用户机时剩余量、每天提交与结束的作业数、每个作业消耗的CPU核心数与起止时间等信息, 是用户机时使用最权威、最详细的说明。

CPU计时方法

单个作业所消耗的机时,与其运行时长及使用的CPU核心数有关,计算公式如下:

T = t * n

其中,n为作业使用的CPU核心数,t为作业的运行时长(单位:小时作业排队时间不计入消耗的机时),T为该作业消耗的机时量(单位:核小时)。

用户该月消耗的机时总量,是该月所有作业的机时之和。

GPU计时方法

运行在 GPU 队列上的作业,机时使用是按照 CPU 耗时折算而来的。GPU 节点上配置了 2 颗 CPU(共 16 核),外加 2 块 K20M 加速卡。GPU 机时的计费单位是 “卡小时”(cardhours),卡小时与用于计算 CPU 机时费的单位 “核小时”(corehours) 换算关系如下:

1 cardhour = 8 corehours

对于GPU使用的几点建议如下:

  • 推荐用户独占GPU节点进行计算,即使用-n 16或者-x参数;
  • 如果不独占节点,可能会与别人竞争GPU资源,造成任务变慢甚至失败;

机时统计细节与其他节点一致。

= 核对机时 =

月报的“Jobs in Detail”部分详细记录了每个作业使用的CPU核心数(Number of Cores)、起止时间(Start Time、End Time)、等信息,用户可以使用“计时方法”一节介绍的方法,手工验证每个作业消耗的机时(Statistical Machine Hours)是否正确。 用户还可以将验证后的机时求和,检验结果是否与月报上的总机时一致。

结果反馈

如果月报中的单个作业机时计算有误,或者相加的总机时计算有误,请与Pi管理员联系。 用户还可以使用如下方法验证π计费系统的准确性:请在任意时间提交一个作业,手工记录该作业的ID和运行时长,然后在下月月报中,核对π计算的机时与您自己记录的机时是否一致。

受限于人力和物力,目前用户月报只能由高性能计算中心每月统一整理和发布。 为方便用户,我们计划于2014年下半年推出自助机时查询服务,敬请期待。