字节跳动模型工程技术专家(AI Infra)-剪映Capcut
社招全职5年以上A106766地点:深圳状态:招聘
任职要求
1、扎实的机器技术基础,了解前沿的AI技术,有不错的工程实践经验; 2、具备5年以上机器学习系统工程经验,其中至少2年专注于大模型相关方向;精通Python,熟练掌握PyTorch深度学习框架,并具备优秀的C++/Linux开发和调试能力; 3、拥有从零构建或深度改造大规模模型训练/推理管线的成功经验; 4、具备丰富的GPU集群性能调优与问题诊断经验,熟悉CUDA编程…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、负责将各类大模型(包括MoE架构、多模态模型及未来超大规模模型)高效部署至生产环境,持续跟踪并集成如vLLM、SGLang、xLLM等先进推理框架,保障新模型能够快速、高性能上线; 2、深入数据工程与模型蒸馏领域,通过数据合成、特征工程及知识蒸馏(如软标签蒸馏、特征蒸馏)等技术方案,系统性提升数据利用效率、降低模型部署成本,并验证其在业务中的可行路径; 3、探索并应用创作者Agent等前沿方向,将其能力赋能于训练样本自动合成、Train-Free冷启动及自动化评测等场景,革新传统数据与评估工作流; 4、对业务模型进行深度的推理性能优化,包括但不限于动态批处理、量化压缩、注意力机制优化等,持续降低服务延迟与资源消耗,并积累超大规模(如万亿参数)模型的部署经验与技术储备; 5、负责构建和优化大规模模型的强化学习(RL)、监督微调(SFT)及端到端训练的完整工程链路;提升训练流程的稳定性与吞吐量,并设计和复用离线验证与评测链路,为算法团队提供高效的迭代与效果评估环境。
包括英文材料
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
还有更多 •••
相关职位
社招3年以上技术类-开发
1. 负责大模型分布式训练和推理研发,持续优化提升大模型训练框架(基于MegatronLM), 或推理框架(基于sglang 或 vllm) 的性能。 2. 深度参与原生多模态大模型研发,实现 基于MoE的多模态大模型架构 和 训练推理框架协同co-design,实现千亿级模型高效训练
更新于 2025-09-04北京|上海|杭州
社招5年以上云智能集团
作为通义万相的AI infra训推优化团队,你将有机会参与或负责以下工作内容: ● 对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能; ● 针对多种异构AI加速硬件,对核心算子进行极致性能优化,结合量化、蒸馏、cache等技术,降低视频推理成本; ● 开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量; ● 持续关注并跟进业界技术发展,积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
更新于 2025-12-19北京|杭州
社招5年以上云智能集团
1. 针对整机柜超节点服务器,全面赋能计算、互联、监控、故障及性能诊断等核心能力; 2. 梳理适配超节点异构服务器产品的业务场景,开展对应的昆仑组件设计与开发,涵盖性能评测分析、容器镜像等关键模块; 3. 基于整机柜硬件架构及典型业务落地场景,构建典型故障与异常案例库,并设计相应的故障诊断方案; 4. 负责跟踪与研究主流GPU架构设计技术,参与下一代AI Infra的规划与设计; 5. 结合业务画像,构建面向异构硬件与系统的全链路量化分析模型,形成数据驱动的决策数据库,有效推动异构服务器产品的规划与规模化落地。
更新于 2025-11-26北京|杭州