腾讯操作系统高级研发工程师(深圳/北京/上海)
任职要求
1.硕士及以上学历,精通一种或者多种软件开发语言(C/C++、Python、Go等),五年及以上系统软件或者平台软件开发经验; 2.熟悉操作系统架构设计和核心组件,具备主导系统软件设计和核心组件开发; 3.熟悉Linux系统,有操作系统软件开发经验者优先; 4.有开源代码…
工作职责
1.负责操作系统基础软件源码维护,需求开发,上游反馈等; 2.负责操作系统核心组件设计和研发,腾讯自研软件开发和支持; 3.负责软件包分析,打包和编译,软件包依赖解决; 4.参与社区互动,协同开发,开发者交流等。
1.负责大数据平台的架构设计、开发和优化。优化计算引擎性能,对分布式存储做访问加速优化; 2.能深入分析和优化湖仓计算引擎查询性能,包括动态连接重排序、动态分区剪枝、自动处理数据倾斜和动态优化等; 3.负责分布式存储系统的管理和优化,提升数据访问性能,特别是在存算分离场景下的数据读写访问优化与加速; 4.提高大数据作业的调度和执行效率,包括对Apache Iceberg、Apache Hudi等湖仓关键技术的深入应用和优化; 5.在持续优化系统性能的同时,能确保系统的高可用性和稳定性。
1.负责分布式存储相关方向的技术研发以及运营,打造业界领先的超大规模存储系统; 2.不断丰富产品功能,提升产品竞争力,满足不同行业客户的业务诉求; 3.持续优化系统服务质量,提升系统性能,降低运营成本,为客户提供稳定可靠的云存储服务。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性
工作职责: 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。