logo of xpeng

小鹏汽车计算平台高级软件工程师

社招全职3年以上地点:广州状态:招聘

任职要求


1. 计算机 / 软件工程硕士或同等经验,3年及以上大规模数据处理经验;有大规模模型训练与推理场景支持经验者优先;
2. 精通 Python,具备扎实软件工程基础,良好编程规范和代码质量意识;
3. 有以下至少一项实际项目经验;两项及以上者优先:
  a. 大规模数据加载机制(如 PyTorch DataLoader、NVIDIA DALI、TensorFlow Dataset、Hugging Face Datasets)
  b. Parquet/ORC 等列式存储格式及相关生态(如Petastorm),能设计高效的分区、压缩与向量化读取流程,优化批量数据访问性能。
  c. Linux文件系统与网络I/O,能针对NFS、对象存储等场景进行性能调优;有云存储系统(如阿里云OSS、CPFS、火山引擎vePFS)相关经验。
4. 具备关系型数据库(MySQL/PostgreSQL)与NoSQLRedis/MongoDB等)相关经验,了解元数据与缓存管理;
5. 具备大规模分布式数据处理、性能优化与问题排查经验,能定位并高效解决复杂的性能问题;熟悉Apache RayKubeflow/AirflowPrometheus等开源项目者优先;
6. 具有良好的跨团队沟通能力和协作精神,责任心强,善于主动推进问题解决。

加分项
1. (Big Plus) 对自动驾驶领域有一定了解,且对该行业怀有热情;
2. 熟练掌握 Golang/Java/C++中任一;
3. 熟悉以下任何技术:
  a. 分布式系统原理及云原生技术(容器、Kubernetes微服务架构);
  b. AI 基础设施或模型训练/推理流程(GPU 调度、模型服务框架、集群管理);
  c. 数据仓库体系 (HadoopHiveSparkFlink)。

工作职责


1. 负责小鹏汽车“扶摇”AI平台数据处理相关的软件开发工作,包括数据加载工具(XDataLoader)和数据集管理平台(XDataset),提供统一的数据加载、转换、缓存与预取能力;目标解决大规模数据加载过程中出现的性能瓶颈、数据一致性、系统稳定性等问题,服务AI大模型的训练和推理;
2. 开发并维护高性能 DataLoader SDK,支持自定义采样、并行读取、缓存预取与数据增强等功能,优化多线程/进程流水线,降低I/O与预处理延迟,简化算法团队接入并提升加载效率;
3. 搭建通用Dataset管理系统,实现多源异构数据(图片、视频、点云、传感器等)的统一接入、解析与格式化;
4. 协同算法团队及其他技术团队,深入理解业务需求,快速响应并落地实现。
包括英文材料
Python+
编程规范+
PyTorch+
TensorFlow+
Parquet+
Linux+
性能调优+
MySQL+
PostgreSQL+
NoSQL+
Redis+
MongoDB+
缓存+
Apache+
Ray+
Kubeflow+
Airflow+
Prometheus+
自动驾驶+
Go+
Java+
C+++
分布式系统+
Kubernetes+
微服务+
数据仓库+
Hadoop+
Hive+
Spark+
相关职位

logo of bytedance
社招5年以上A120749

1、负责Devops平台/运维平台的整体架构设计和技术选型,制定技术发展路线; 2、主导Devops工具链的建设和集成,包括但不限于CI/CD、配置管理、监控告警、日志分析等工具; 3、优化和改进现有运维流程,通过自动化等方式提高运维效率,降低运维成本; 4、负责平台的性能优化、安全加固和高可用性设计,保障平台的稳定运行,并编写和维护平台相关的技术文档和操作手册,提供技术支持和培训。

更新于 2025-01-08
logo of futu
社招5年以上技术类

1、负责金融平台实时交易链路与清结算相关业务的测试工作,包含但不限于收费计息、公司行动、期权期货、结单、税务等业务,涉及服务端、web端以及全流程测试2、参与需求评审,以专业测试视角对需求合理性进行评估,并提出建议和意见3、根据产品需求、技术方案文档,设计并执行高质量测试用例,保证对需求的全面覆盖4、运用先进测试工具和自动化方法,提高测试效率和项目质量5、持续优化测试流程,与开发、产品等跨团队协作,共同提升产品品质

更新于 2025-08-28
logo of xiaohongshu
社招3年以上后端开发

容器统一调度与在离线混部方向 岗位职责 1.负责公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、弹性伸缩等模块。 2.设计和实现在线与离线任务的混部调度方案,优化集群资源的整体利用率,实现计算、存储和网络资源的高效调度。 3.针对不同业务场景,研究并改进 Kubernetes 调度算法,包括任务优先级、抢占机制、节点选择等,提升集群的资源分配效率和稳定性。 4.与多集群管理平台、资源隔离、QoS 管理等模块协同工作,确保在复杂场景下的资源调度策略具备高可用性和可扩展性。 5.跟踪云原生生态的最新发展趋势,研究并应用新技术以提升系统性能和调度灵活性。 6.支持系统的性能监控与故障诊断,参与系统优化和技术问题的快速解决,保障系统的高效稳定运行。

更新于 2025-09-13
logo of dji
社招5年以上软件

1. 与团队共同完成飞行仿真测试平台的顶层设计与功能交付,提升飞行系统开发迭代效率; 2. 设计并搭建飞行仿真平台,如logsim/worldsim,实现仿真技术,提供仿真能力; 3. 将仿真平台与实际业务代码进行集成,实现SIL/VIL/HIL等测试手段。

更新于 2025-05-21