昆仑芯官方招聘

工作职责:

-参与 AI Infra 核心平台建设，支撑大模型训练与推理业务的稳定、高效运行，覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度
-负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测，建设标准化算力验收与持续评测体系，保障不同硬件规格在大规模集群下的可用性与一致性
-负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理，重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标，参与或主导调度、资源隔离、设备插件（GPU/RDMA）、网络或存储相关模块的设计与二次开发
-支撑大模型推理与训练业务在平台侧的工程化落地，关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离，与算法、引擎团队协作，推动性能优化能力在平台层的规模化复用
-参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设，支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理，解决实际生产环境中的性能抖动、资源碎片化与容量规划问题
-参与运维与运营平台后端研发，支撑算力运营、性能监控、容量管理与成本治理，建设可观测体系（监控、日志、Tracing），推动问题发现与定位的自动化，通过工程化手段持续降低人工运维成本

任职要求:

-计算机相关专业本科及以上学历，3年及以上后端/平台/云原生相关经验
-熟悉 Kubernetes 生态，具备容器平台或云原生系统的实际建设经验
-熟练掌握 Go 语言，具备中大型后端或平台系统的设计与开发能力
-熟悉 Linux 操作系统原理，理解容器网络、存储、资源隔离与调度机制
-具备良好的工程习惯、文档意识和跨团队沟通协作能力
-了解 GPU、RDMA 等算力资源在云原生体系中的使用与管理方式
-具备 GPU 集群或高性能计算相关的工程经验者优先
-了解大模型训练与推理的基本流程，能够从平台视角支撑其稳定运行
-熟悉或了解多卡/多机场景下的并行模式（TP/DP/PP/PD 等）
-具备性能分析与问题定位能力，能够在复杂系统中拆解并解决稳定性或性能问题

加入我们

高级 IaaS 研发工程师(J97206)

工作职责:

任职要求: