数据pipeline开发工具研发实习生(J97899)
  • 招聘类别:
  • 实习生招聘
  • 工作性质:
  • 实习
  • 薪资范围:
  • 面议
  • 招聘人数:
  • 1
  • 发布时间:
  • 2026-05-01
  • 截止时间:
  •  
  • 工作地点:
  • 北京市,上海市

工作职责:

-参与百度云数据处理 Pipeline 引擎的核心研发工作
-参与设计与实现分布式 DAG 执行引擎,包括任务调度、依赖管理与失败恢复机制
-参与批处理与流处理统一架构(Batch & Streaming Unified)的设计与优化
-参与数据加工算子框架的研发,包括 Filter / Join / Aggregate / Transform 等通用算子能力建设
-参与任务执行过程中的状态管理、容错机制与资源调度优化
-参与数据血缘追踪、Schema 演进与数据质量校验能力的设计与实现
-参与企业级复杂场景下大规模 Pipeline 性能优化与稳定性保障工作


任职资格:

-熟悉 Java / Scala 中至少一种语言,具备扎实的数据结构与算法基础
-熟悉 Apache Spark 的基本使用与开发模式,能够独立编写 Spark SQL / DataFrame / Dataset 任务
-理解 Spark 执行模型(Driver / Executor / Task / Stage)及 DAG 生成过程
-熟悉 Spark Shuffle 机制
-理解 Spark 内存管理模型(Execution Memory / Storage Memory)及常见 OOM 原因
-理解 Spark Catalyst Optimizer 与 Tungsten 执行引擎原理者优先,能够通过执行计划(Explain)分析任务瓶颈,包括数据倾斜处理(如 Salting / 预聚合 / Map 端 Join)、合理设置并行度(Partition 数优化)、合理使用 Broadcast Join等等
-有 Structured Streaming 使用经验者优先,理解 Watermark、State Store 与 Exactly-once 语义
-有在大规模数据(TB 级以上)场景下进行稳定性与性能优化经验者优先

©2026  百度昆仑芯定制网申   京ICP备05051632号-16 京公网安备 11010802032024号隐私政策 Powered by