logo of tme

腾讯音乐技术研究-大模型加速

实习兼职技术类地点:深圳状态:招聘

任职要求


1. 对大模型加速领域保持好奇和持续探索; 
2. 具备问题分析/定位能力,算法创新能力,以及良好的沟通/团队协助能力;
3. 熟悉计算机操作系统,异构架…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责大模型推理性能优化,包括CUDA Kernel开发、推测解码、低精度量化、模型结构优化等;
2. 优化多机多卡分布式训练流程,优化 Deepspeed Megatron-LM verl 等框架调优训练任务;
3. 解决大模型算法训练和推理部署瓶颈,助力大模型在各业务真实应用突破;
4. 参与大模型推理加速开源贡献工作,前沿系统技术跟进分析。
包括英文材料
大模型+
算法+
内核+
还有更多 •••
相关职位

logo of antgroup
实习蚂蚁技术研究院长

项目简介: 蚂蚁技术研究院计算系统实验室先进加速技术团队旨在为同态加密计算、大模型推理等新兴应用探索加速技术栈,涵盖应用优化、算法并行优化、体系结构优化、电路优化、系统优化等多个方向。

北京|上海|杭州
logo of meituan
校招核心本地商业-业

研究方向一:大模型智能体Agent技术研究​ ​1.研究多轮长对话中的上下文管理技术,提高模型的连贯性和一致性,并探索基于用户特征和历史交互的定制对话策略,设计针对特定业务场景的微调和适应技术,提升模型在实际应用中的表现。​ 2.探索智能体调用和使用多个外部工具的方法,通过端到端后训练的方式增强其解决实际问题的能力。深度研究智能体的自我评估和学习机制,实现智能体的持续优化和能力提升。​ 3.优化LLM长链路的多轮工具调用能力,提升工具调用时的精确性及用户的实际交互体验。​ 4.设计并完善针对特定任务场景的Auto-Eval能力,指导模型迭代方向。 研究方向二:深度搜索(Deep Search/Research)技术研究​ 1.研究面向深度搜索场景的工具学习方法,基于SFT/RLHF后训练算法赋予搜索智能体高效的工具调用能力。​ 2.对齐行业最前沿的研究进展,深入研究不同工具调用环境下的大模型后训练能力边界,并基于实际业务场景进行迭代优化。​ ​研究方向三:多模态基础模型能力建设​ 1.研究多模态数据(文本、语音、图像等)的语义融合与表示方法,提升模型对复杂内容的理解能力。 2.探索多模态模型在推理任务中的表现,研究如何通过工具调用增强模型的推理能力。​ 3.设计高效的多模态模型架构,优化模型的参数规模、训练效率和推理性能,提升基础模型的通用性与适应性。 ​研究方向四:大模型分布式后训练及推理加速技术​ 1.后训练方向:样本IO吞吐优化:使用多线程读取、数据管道流水线编排、数据压缩等技术,实现分布式环境下高性能的样本IO pipeline;​计算图编译与高效执行:通过图编译、Kernel优化、算子融合等手段,提升计算图的执行效率;高性能并行训练:包括DP/TP/PP/SP/CP/EP等并行策略及其他训练超参数的自动寻优,故障自动恢复,弹性计算等;强化学习训练效率优化:通过rollout速度优化、多模型多阶段流水线编排、负载均衡等手段优化RL训练效率。 2.推理加速方向:负责实现和优化大模型在线推理系统,提升推理性能,包括不限于:架构设计、算子开发、通信优化等; 研究并实现各种模型推理加速手段如并行策略、混合精度、MOE、FP8等技术,加速模型推理速度; 设计和开发高效的离线、在线推理系统,优化SGLang、vLLM等推理框架,加速整体推理性能。

更新于 2025-05-23北京
logo of alibaba
实习淘天集团研究型实

1. 负责大模型(MLLMs/LLMs)核心技术研发,包括预训练、垂域SFT、RLHF等,持续追踪和应用领域最新技术进展; 2. 负责大模型性能优化:研发模型加速技术,如量化、剪枝与知识蒸馏;优化数据特征与调度策略;构建高效推理链路、提升运行速度及降低成本; 3. 负责多模态AIGC的创意玩法探索,以及细粒度可控的多模态内容生成和编辑、不同输入条件下的高质量视频生成技术研究等; 4. 基于研究成果撰写高质量学术论文,积极参与业界交流活动,建立和维护学术界与产业界的合作关系。

更新于 2025-05-06北京|杭州
logo of bytedance
实习A206252

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动ByteDance Research专注于人工智能领域的前沿技术研究,涵盖了机器人研究、机器学习公平性、量子化学、AI 制药、分子动力学等多技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。 1、负责LLM和Diffusion Model的性能优化; 2、通过TensorRT、量化、剪枝、算子融合、Cuda算子编写等性能优化的手段,结合业务需求,将GPU性能发挥到极致; 3、负责ByteDance Research推理优化技术的调研和引入; 4、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2025-03-07北京