职位描述
【岗位职责】
1. 平台架构与开发:参与设计并实现支持大模型持续训练、微调、对齐及推理的全链路大模型训推平台
2. 分布式系统优化:设计并优化分布式计算框架与并行计算策略,以提升大规模模型训练和推理的效率与稳定性
3. 性能攻坚:深入分析并解决大模型训练和推理过程中的技术难题,包括但不限于显存优化、计算效率、通信加速和低延迟服务等
4. 稳定性保障:参与建设平台的稳定性体系,涵盖监控、预警、故障排查和恢复等功能,确保平台服务的高可用性
5. 技术前瞻:跟踪业界最新技术动态(如新的模型架构、训练方法、硬件特性),并进行技术调研与原型验证,推动其在产品中落地
【任职要求】
1. 计算机科学、人工智能、软件工程或相关专业,本科及以上学历
2. 具备优秀的编码能力,熟练掌握 C /Go/Python/Java 等至少一门主流编程语言
3. 熟悉至少一种主流深度学习框架(如 PyTorch、TensorFlow等),并了解其底层架构
4. 了解大模型相关的训练/推理优化技术(如分布式训练、模型压缩、算子融合等)
5. 具备异构计算(GPU/CPU)或容器技术(Kubernetes、Docker)的实际项目经验
6. 热爱技术,有强烈的求知欲和进取心,具备优秀的学习能力和解决问题的能力