
LoopGroup【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm产品支持情况Ascend 950PR/Ascend 950DT支持Atlas A3 训练系列产品/Atlas A3 推理系列产品不支持Atlas A2 训练系列产品/Atlas A2 推理系列产品不支持功能说明CCU kernel内的硬件LoopGroup类将多个ccu::Loop对象组织为一组共享同一份LoopEngine资源池避免多个独立Loop各自独占LoopEngine导致资源耗尽。构造ccu::LoopGroup时自动将传入的loops列表中的每个Loop加入该Group。类定义namespace AscendC { namespace ccu { class LoopGroup { public: // 构造方式1config-basedGroup参数在注册期已知 LoopGroup(const CcuLoopGroupConfig loopGroupCfg, uint32_t maxLoopNum, const std::vectorLoop loops); // 构造方式2var-basedGroup参数在运行期由Variable决定 LoopGroup(Variable parallelCfg, Variable offsetCfg, uint32_t maxLoopNum, const std::vectorLoop loops); }; } // namespace ccu } // namespace AscendC参数说明构造方式1config-based参数名输入/输出描述loopGroupCfg输入LoopGroup配置类型为CcuLoopGroupConfig字段含义见下表。maxLoopNum输入本Group最多容纳的Loop数量框架据此预留LoopEngine资源池容量。loops输入要加入本Group的ccu::Loop对象列表。列表中每个Loop会在LoopGroup构造函数内自动被注册到Group。构造方式2var-based参数名输入/输出描述parallelCfg输入并行配置Variable运行期决定并行参数。该参数包含64bit其中[47:41]表示loopgroup内包含的Loop指令个数其中[54:48]表似乎Loopgroup中包含的Loop指令需要完成Loop自动展开的Loop偏移其中[61:55]表示Loop需要展开的次数。举例X[47:41]4表示程序中包含4个Loop指令Xn[54:48]1表示从编号为1的Loop开始展开Xn[61:55]3表示loop1loop2loop3分别复制展开3次loop0不进行复制经过展开后总Loop个数为4 (4-1) * 3 13offsetCfg输入偏移配置Variable运行期决定偏移参数。 该参数包含64bit其中[9:0]表示Loop进行展开后使用的Event资源偏移量[20:10]表示Loop进行展开后使用的CcuBuffer资源偏移量[52:21]表示Loop进行展开后各个数据传输类指令使用的Address累加的偏移量。maxLoopNum输入同构造方式1。loops输入同构造方式1。CcuLoopGroupConfigconfig-based构造使用的参数结构字段如下字段类型说明cloneNumuint32_t并行克隆数量指定Group内并发执行的实例数。cloneLoopOffsetuint32_t克隆实例间Loop的偏移量。addrOffsetuint32_t克隆实例间Address的偏移字节数。ccuBufferOffsetuint32_t克隆实例间CcuBuffer切片的偏移片数。eventOffsetuint32_t克隆实例间Event槽位的偏移位数。异常ccu::LoopGroup构造失败时抛出异常携带CcuResult错误码。常见原因原因错误码maxLoopNum为0或var-based构造的运行期配置Variable为空CCU_E_PARA实际加入的Loop数超过maxLoopNumLoopEngine池容量不足CCU_E_PARA物理资源XN/GSA/CKE/MS等不足CCU_E_UNAVAIL等约束说明ccu::LoopGroup构造时会立即遍历loops列表将每个Loop注册到Group注册后不可再修改Group成员。loops列表中的ccu::Loop对象必须已在ccu::LoopGroup构造前完成构造即body已记录。同一个ccu::Loop对象不应被加入多个ccu::LoopGroup。Group内各Loop的body约束与独立ccu::Loop相同参见Loop的约束说明。maxLoopNum必须大于0为0时构造直接失败CCU_E_PARA。maxLoopNum应 ≥loops列表实际大小即真正会加入Group的Loop数含展开复用偏小会导致后续加入Loop时因LoopEngine池容量不足而失败CCU_E_PARA。调用示例using namespace AscendC::ccu; // 场景两个Loop共享LoopEngine资源池 CcuResult MyKernel(CcuKernelArg arg) { Variable r1, r2, numA, numB; numA 10; numB 20; Func body1([] { r1 numA numB; }); Func body2([] { r2 numA numA; }); CcuLoopConfig cfg1; cfg1.addrOffset 0; cfg1.iterNum 2; Loop l1(cfg1, body1); CcuLoopConfig cfg2; cfg2.addrOffset 0; cfg2.iterNum 3; Loop l2(cfg2, body2); // 将l1, l2 组织成LoopGroup共享LoopEngine 资源池 CcuLoopGroupConfig grpCfg; grpCfg.cloneNum 0; grpCfg.cloneLoopOffset 0; grpCfg.addrOffset 0; grpCfg.ccuBufferOffset 0; grpCfg.eventOffset 0; LoopGroup g(grpCfg, /*maxLoopNum*/2, {l1, l2}); return CCU_SUCCESS; }【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考