职位描述
职位名称:高性能网络研发工程师
职位描述:
1.设计、开发与优化面向AI训练/高性能计算(HPC)场景的高性能网络通信架构,支撑大规模分布式计算需求;
2.主导RDMA(RoCE/InfiniBand)、GPUDirect、NCCL等技术的深度调优,解决网络与GPU协同工作的性能瓶颈;
3.开发高效集合通信算法,提升多节点多GPU集群的通信效率,降低AllReduce、Broadcast等操作时延;
4.构建GPU-aware网络协议栈,优化数据从网络到GPU显存的零拷贝传输机制;
5.参与超大规模集群网络故障诊断与性能分析工具链建设,提升系统鲁棒性;
6.跟踪CUDA-Aware MPI等前沿技术,推动技术落地生产环境。
技能要求:
1.精通C/C /Python,Linux环境下网络协议栈/高性能组件开发经验;
2.深入理解RDMA协议栈(Verbs API)、RoCEv2/InfiniBand架构及流量控制机制;
3.熟悉NVIDIA GPU架构(如Ampere/Hopper),有CUDA/GPU Direct RDMA开发调试经验;
4.掌握NCCL、OpenMPI等集合通信库内部原理,具备性能瓶颈分析能力;
5.熟悉主流网络加速技术(DPDK、SR-IOV、TCP/IP Offload);
6.具备Kernel Bypass、Zero-Copy、PCIe P2P数据传输等优化实战经验。
职位要求:
1.本科及以上学历,计算机科学与技术、网络工程、通信工程等相关专业;
2.拥有高性能网络研发工作经验,有实际的大规模集群网络项目开发经验;
3.有在云服务、机器学习、数据中心等领域进行高性能网络研发背景者优先;
4.具备良好的问题解决能力,能够快速定位和解决复杂的网络问题;
5.对技术创新有强烈的热情,具备良好的学习能力和创新精神,能够跟踪并掌握最新的网络技术发展趋势;
6.具备优秀的团队合作精神和沟通能力,能够与不同背景的团队成员紧密合作,共同完成项目目标;
7.良好的英语阅读和写作能力,能够阅读和理解英文技术文档和资料。