字节跳动模型工程技术专家(AI Infra)-剪映Capcut
任职要求
1、扎实的机器技术基础,了解前沿的AI技术,有不错的工程实践经验; 2、具备5年以上机器学习系统工程经验,其中至少2年专注于大模型相关方向;精通Python,熟练掌握PyTorch深度学习框架,并具备优秀的C++/Linux开发和调试能力; 3、拥有从零构建或深度改造大规模模型训练/推理管线的成功经验; 4、具备丰富的GPU集群性能调优与问题诊断经验,熟悉CUDA编程…
工作职责
1、负责将各类大模型(包括MoE架构、多模态模型及未来超大规模模型)高效部署至生产环境,持续跟踪并集成如vLLM、SGLang、xLLM等先进推理框架,保障新模型能够快速、高性能上线; 2、深入数据工程与模型蒸馏领域,通过数据合成、特征工程及知识蒸馏(如软标签蒸馏、特征蒸馏)等技术方案,系统性提升数据利用效率、降低模型部署成本,并验证其在业务中的可行路径; 3、探索并应用创作者Agent等前沿方向,将其能力赋能于训练样本自动合成、Train-Free冷启动及自动化评测等场景,革新传统数据与评估工作流; 4、对业务模型进行深度的推理性能优化,包括但不限于动态批处理、量化压缩、注意力机制优化等,持续降低服务延迟与资源消耗,并积累超大规模(如万亿参数)模型的部署经验与技术储备; 5、负责构建和优化大规模模型的强化学习(RL)、监督微调(SFT)及端到端训练的完整工程链路;提升训练流程的稳定性与吞吐量,并设计和复用离线验证与评测链路,为算法团队提供高效的迭代与效果评估环境。
1. 负责大模型分布式训练和推理研发,持续优化提升大模型训练框架(基于MegatronLM), 或推理框架(基于sglang 或 vllm) 的性能。 2. 深度参与原生多模态大模型研发,实现 基于MoE的多模态大模型架构 和 训练推理框架协同co-design,实现千亿级模型高效训练
作为通义万相的AI infra训推优化团队,你将有机会参与或负责以下工作内容: ● 对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能; ● 针对多种异构AI加速硬件,对核心算子进行极致性能优化,结合量化、蒸馏、cache等技术,降低视频推理成本; ● 开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量; ● 持续关注并跟进业界技术发展,积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
团队介绍: 阿里国际以AI技术驱动,助力全球数字贸易及电商生 态的发展。AlBusiness是阿里国际内部集大模型研究 及智能化前沿产品研发于一体的AI部门,自研面向跨境商贸增强的多语言大模型-Marco和多模态大模型 -Ovis,依托全球化的AI基础设施和算力资源,帮助 AliExpress、Lazada、Alibaba国际站、Trendyol、 Daraz等平台全面革新跨境电商全链路的经营体验和 商业效率。基于先进的大模型与工程技术,我们正在打造新一代的智能体(Agent)和智能引擎(Deep Search)产品,持续致力于让全球商业没有语言障碍,用智能帮助跨境贸易更加简单。 职位描述: 1. 进行AI Infra相关的研发工作,包括但不限于模型推理引擎,分布式训练框架,模型部署和服务,任务分发和调度,弹性扩缩容,高性能计算集群管理等。 2. 通过AI Infra的研发工作,支持LLM和多模态等大模型的研发、部署和上线服务,支持Agentic AI等新型AI产品的研发和应用,保障客户体验,实现业务落地和成本降低等目标。 3. 与算法、产品、运营以及工程等团队通力合作,推进AI产品和技术的发展和应用。