百度昆仑芯定制网申网申系统--招聘详细

数据pipeline开发工具研发实习生(J97899)

招聘类别：
实习生招聘
工作性质：
实习
薪资范围：
面议
招聘人数：
1

发布时间：
2026-05-01
截止时间：

工作地点：
北京市,上海市

工作职责：

-参与百度云数据处理 Pipeline 引擎的核心研发工作
-参与设计与实现分布式 DAG 执行引擎，包括任务调度、依赖管理与失败恢复机制
-参与批处理与流处理统一架构（Batch & Streaming Unified）的设计与优化
-参与数据加工算子框架的研发，包括 Filter / Join / Aggregate / Transform 等通用算子能力建设
-参与任务执行过程中的状态管理、容错机制与资源调度优化
-参与数据血缘追踪、Schema 演进与数据质量校验能力的设计与实现
-参与企业级复杂场景下大规模 Pipeline 性能优化与稳定性保障工作

任职资格：

-熟悉 Java / Scala 中至少一种语言，具备扎实的数据结构与算法基础
-熟悉 Apache Spark 的基本使用与开发模式，能够独立编写 Spark SQL / DataFrame / Dataset 任务
-理解 Spark 执行模型（Driver / Executor / Task / Stage）及 DAG 生成过程
-熟悉 Spark Shuffle 机制
-理解 Spark 内存管理模型（Execution Memory / Storage Memory）及常见 OOM 原因
-理解 Spark Catalyst Optimizer 与 Tungsten 执行引擎原理者优先，能够通过执行计划（Explain）分析任务瓶颈，包括数据倾斜处理（如 Salting / 预聚合 / Map 端 Join）、合理设置并行度（Partition 数优化）、合理使用 Broadcast Join等等
-有 Structured Streaming 使用经验者优先，理解 Watermark、State Store 与 Exactly-once 语义
-有在大规模数据（TB 级以上）场景下进行稳定性与性能优化经验者优先

现在申请

返回职位列表

热招职位更多 >>

长招职位更多 >>