工作职责:
1.基于自研芯片架构开发大模型推断、训练、微调算子;
2. 与编译器团队紧密配合,针对硬件体系结构对算法进行分析,设计,和优化;
3. 将算子实现映射到实际硬件,进行性能分析,识别性能瓶颈;
4. 算子库的软件设计、实现及优化,包括但不限于算子库实现流程本身的优化,指令级并行等,通过优化最大程度发挥硬件性能;
任职要求:
1. 精通C/C++语言编程;
2. 熟悉 Pytorch、Tensorflow 框架及自定义算子开发,熟悉LLM常见模型结构;
3.熟悉计算机体系结构、众核处理器原理,具有算子性能优化的实际工作经验;
4. 有良好的沟通能力和团队协作能力,优秀的学习能力和技术热情。
加分项(优先考虑):
1. 具备 CUDA, ROCm, Ascend, ONNX, ATen算子开发经验