快手(大模型专项)深度学习平台研发工程师(C++)
任职要求
1、具备良好的团队协作能力,热爱钻研技术,善于分析、解决工程问题; 2、熟练掌握 C++ 开发,熟悉常用数据结构和基础算法,有两年及以上 C++ 工程经验更佳; 3、熟悉 Tensorflow 或 PyTorch 的使用,有二次开发能力 或 开源社区贡献经历 更佳; 4、了解分布式训练相关概念,如 参数服务器、集合通信 等,有 训练框架、HPC 等领域从业背景更佳; 5、加分项: …
工作职责
1、 研发业界领先的分布式深度学习训练框架,提供面向大规模稀疏数据的解决方案,服务于快手内部所有推荐类业务场景,包括 短视频、海外、广告、电商、直播等; 2、 多样的业务形态和庞大的业务规模 使得 框架的开发与优化 极富挑战性:万量级 GPU 卡,千亿量级样本,万亿量级参数,PB 量级训练数据; 3、工作内容包括但不限于: (1)参数服务器; (2)多机多卡分布式; (3)网络通信优化(以太网,RDMA); (4)GPU 优化(Kernel 优化,编译优化 等); (5)框架原生化(Tensorflow,PyTorch)。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队,旨在实现TikTok直播业务的研发工作,搭建及维护业界领先的产品。 加入我们,你能接触到包括:社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景,支持产品在全球赛道上高速发展; 也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。 在这里,团队专业且纯粹,合作氛围平等且轻松。 目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、参与TikTok直播业务产品研发,负责直播相关的产品功能开发和新技术探索; 2、深度参与产品研发项目, 协同安卓、服务端等团队交付优质产品; 3、客户端专项工作,进行用户体验/性能问题挖掘、分析、定位、解决方案制定和实施。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 在这里,你将紧跟业界最新自然语言处理技术动态,深入研发并努力创新自然语言处理相关的知识库、词法、句法、语义、文档分析、深度学习、机器翻译、智能对话等技术,包括新颖的算法/模型的提出,模块的实际开发,对接自然语言处理平台的接入以及把高水平研发成果以论文/专利等形式进行发布; 在这里,你需要理解自然语言处理技术应用的相关的业务场景及需求,在自然语言处理技术内核的基础上考虑业务场景的特殊性进而适当适配业务需求; 在这里,你除了在核心技术研发之外,也有机会参与到具体的NLP相关业务中,例如文本内容的理解,商业场景的多语言多模态翻译和沟通,搜索Query分析、智能对话的语义解析及意图理解、商品评价的语义理解、内容搜索推荐的结构化分析、商品搜索推荐的标签体系、社会化问答的文本分析、智能客服的场景定制等。 加入我们,起来夯实基础、赋能商业,实现技术与商业的完美结合,共同推进自然语言处理技术赋能平台化、服务化策略,不断追求技术的深度以及技术与业务的适当解耦。来吧,我们等你加入! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 在这里,你将紧跟业界最新自然语言处理技术动态,深入研发并努力创新自然语言处理相关的知识库、词法、句法、语义、文档分析、深度学习、机器翻译、智能对话等技术,包括新颖的算法/模型的提出,模块的实际开发,对接自然语言处理平台的接入以及把高水平研发成果以论文/专利等形式进行发布; 在这里,你需要理解自然语言处理技术应用的相关的业务场景及需求,在自然语言处理技术内核的基础上考虑业务场景的特殊性进而适当适配业务需求; 在这里,你除了在核心技术研发之外,也有机会参与到具体的NLP相关业务中,例如文本内容的理解,商业场景的多语言多模态翻译和沟通,搜索Query分析、智能对话的语义解析及意图理解、商品评价的语义理解、内容搜索推荐的结构化分析、商品搜索推荐的标签体系、社会化问答的文本分析、智能客服的场景定制等。 加入我们,起来夯实基础、赋能商业,实现技术与商业的完美结合,共同推进自然语言处理技术赋能平台化、服务化策略,不断追求技术的深度以及技术与业务的适当解耦。来吧,我们等你加入! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper