腾讯Pytorch框架研发高级工程师(深圳/北京/上海/杭州)
任职要求
1.精通PyTorch框架,在Pytorch框架上具备大模型的分布式训推经验者优先; 2.掌握并行计算、CUDA编程、网络通信、系统优化及集群硬件架构等HPC相关知识; 3.具备出色的编程能力,熟练…
工作职责
1.参与Pytorch等大模型深度学习框架的研发工作,重点负责GPU及异构芯片的适配与性能优化; 2.深入研究框架引擎内部机制,参与或主导前沿大模型相关技术的探索与实践; 3.与团队合作,持续提升系统的稳定性和扩展性,确保系统能够满足大规模深度学习任务的需求。
1、设计和实现基于LLM的智能体架构,包括任务规划、对话管理、意图识别、流程工程等; 2、设计和实现多模态Agent,支持文本、语音、图像等多种输入/输出形式的处理; 3、推动AI Agent在架构和性能上的持续优化,提升Agent对用户理解能力和响应的准确性; 4、开发和维护智能体的后端服务,确保系统的稳定性和可扩展性; 5、跟踪并研究行业前沿AI算法,持续提升AI Agent的技术水平; 6、编写必要的技术文档,包括API接口说明、核心算法设计与代码开发。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、领导NLP算法开发,分析和理解数据场景的大量文本和非文本信息;为知识图谱构建、文本分类和智能对话等领域开发高性能预测模型和算法; 2、在隐私领域内开发其他相关算法应用,这包括但不限于内容生成、推理和代码生成的开发; 3、探索与NLP相关的前沿技术,并将其应用于专注于隐私安全的场景。
1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系
工作职责: 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。