腾讯数据加速高级开发工程师(深圳/北京/上海)
任职要求
1.计算机或相关专业本科及以上学历,3年以上相关⼯作经验,对分布式系统、缓存、存储、硬件加速、模型训练与推理等任一方向有深入研究者优先; 2.具有Linux后台开发经验,熟悉C++/C/Python/Java等一种或多种语言和调试工具,具有丰富的工程经验; 3.熟悉常用的算法和数据结构,具有良好的软件工程意识,有高并发、大规模后台服务开发经验优先; 4.了解业界常见的分布式存缓系统,比如Alluxio…
工作职责
1.负责面向AI场景的分布式存缓系统的架构设计与研发,针对AI训练、推理、计算等应用场景持续优化; 2.负责多个系统模块的性能、稳定性优化以及关键技术攻坚,提升大规模生产环境下的数据访问效率和SLA; 3.负责优化AI训练和推理的IO链路,充分发挥高速硬件能力,提升资源利用率和降低数据存储成本; 4.跟进业界趋势,进行新技术预研、前沿技术的引⼊和落地。
1.负责大数据平台的架构设计、开发和优化。优化计算引擎性能,对分布式存储做访问加速优化; 2.能深入分析和优化湖仓计算引擎查询性能,包括动态连接重排序、动态分区剪枝、自动处理数据倾斜和动态优化等; 3.负责分布式存储系统的管理和优化,提升数据访问性能,特别是在存算分离场景下的数据读写访问优化与加速; 4.提高大数据作业的调度和执行效率,包括对Apache Iceberg、Apache Hudi等湖仓关键技术的深入应用和优化; 5.在持续优化系统性能的同时,能确保系统的高可用性和稳定性。
工作职责: 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1.三维导航系统开发:基于激光/视觉SLAM实现动态场景重建,开发多目标路径规划算法 ,设计运动学控制接口,适配UR/Unitree等机器人平台; 2.多模态模型工程化:优化视觉语言模型在导航任务中的推理效率,实现多传感器标定工具链,构建仿真-真机数据闭环系统; 3.导航智能体开发:面向导航的任务规划与决策等模块开发,设计知识图谱增强的检索系统 ,探索多智能体协作策略; 4.技术文档编写:编写软件设计文档、调试报告及相关技术资料。
