工作职责:
-参与百度云数据处理 Pipeline 引擎的核心研发工作
-参与设计与实现分布式 DAG 执行引擎,包括任务调度、依赖管理与失败恢复机制
-参与批处理与流处理统一架构(Batch & Streaming Unified)的设计与优化
-参与数据加工算子框架的研发,包括 Filter / Join / Aggregate / Transform 等通用算子能力建设
-参与任务执行过程中的状态管理、容错机制与资源调度优化
-参与数据血缘追踪、Schema 演进与数据质量校验能力的设计与实现
-参与企业级复杂场景下大规模 Pipeline 性能优化与稳定性保障工作
任职资格:
-熟悉 Java / Scala 中至少一种语言,具备扎实的数据结构与算法基础
-熟悉 Apache Spark 的基本使用与开发模式,能够独立编写 Spark SQL / DataFrame / Dataset 任务
-理解 Spark 执行模型(Driver / Executor / Task / Stage)及 DAG 生成过程
-熟悉 Spark Shuffle 机制
-理解 Spark 内存管理模型(Execution Memory / Storage Memory)及常见 OOM 原因
-理解 Spark Catalyst Optimizer 与 Tungsten 执行引擎原理者优先,能够通过执行计划(Explain)分析任务瓶颈,包括数据倾斜处理(如 Salting / 预聚合 / Map 端 Join)、合理设置并行度(Partition 数优化)、合理使用 Broadcast Join等等
-有 Structured Streaming 使用经验者优先,理解 Watermark、State Store 与 Exactly-once 语义
-有在大规模数据(TB 级以上)场景下进行稳定性与性能优化经验者优先