米哈游【日常实习】大模型推理系统工程师

实习兼职程序&技术类地点：北京状态：招聘

扫码手机上打开

任职要求

1、硕士及以上学历，计算机、软件工程、人工智能等相关专业在读优先
2、熟练掌握Linux环境下的C/C++与Python语言
3、精通以下至少一项的背景知识或经验：推理引擎和框架、GPU资源调度、高性能计算与通信、GPU监控和性能分析、模型量化、编译优化等
4、具有独立解决问题的能力，良好的团队合作精神
5、有强烈的工作责任心，较好的学习能力、沟通能力和自驱精神
6、有良好的文档习惯，及时按要求撰写更新工作流程及技术文档

加分项
- 深入研究…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责公司各AI推理场景（LLM/多模态/视频等）的推理系统研发和性能优化、资源调度、可观测性搭建、日常维护等工作
2、与算法团队深度合作，进行算法与系统的联合设计与优化（如模型量化、kvcache量化、投机采样等）
3、保持关注行业前沿技术，且有能力和热情开展创新研究

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Linux+

C+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

【2027届】大模型推理研发实习生-创作发布

实习引擎

日常实习：面向全体在校生，为符合岗位要求的同学提供为期>3个月及以上的项目实践机会。团队介绍：创作发布团队负责小红书“+”号入口，是全平台用户笔记发布的核心能力模块，承载着内容生成、处理与分发的关键任务。我们希望通过智能化技术，持续提升内容创作效率与用户体验。在这里，AI 引擎工程师将聚焦于结合小红书内部业务特点，对“端 & 云 AI 推理引擎”进行深度优化，从模型能力构建、框架适配，到端云协同部署，推动算法真正落地业务，构建完整的推理闭环。你将接触并支持的算法方向包括：AIGC、文本与多模态大语言模型（LLM）、音频处理、基础视觉等多个前沿领域。这些模型往往结构复杂、实时性要求高，对底层推理性能提出了极高挑战。 1、参与海量大模型异构资源的调度编排、算力池化、弹性资源混布、潮汐资源拆借和Quota管理； 2、参与大模型推理服务的多角色、多阶段、PD分图/EP调度，KVCache-centric调度，实现动态、及时、准确的扩缩容管理； 3、参与通过技术手段实现计算资源、RDMA高速网络资源、缓存/存储资源的最优调度，充分发挥大规模分布式集群算力； 4、参与大模型服务的稳定性，通过线上和线下的多系统联动，实现在多种异构资源（GPU、CPU、其他异构硬件）、多云环境、多种网络流量场景的问题定位、诊断、隔离和快速恢复； 5、参与多机房、多地域、多云场景的在离线任务/服务调度，实现负载的合理化分布。

更新于 2025-10-22北京|上海|广州

【日常实习】3D大模型训练优化工程师

实习程序&技术类

1、支撑团队不同大模型任务下的训练及推理优化，包括但不限于：架构设计、检查点优化、训练容错恢复、底层算子优化及通信优化等； 2、研究和优化大规模异构加速集群调度、存储、通信互联、监控、Profiling等组件，提升整体硬件利用效率； 3、针对具体任务调研并进行对应的 Scale Up 实验及优化，包括但不限于并行化策略优化、ZeRO/FSDP 优化、FP8、激活值优化等，加速模型训练，优化显存开销；

上海

算法工程师-大语言模型（代码研发 & 端侧模型）（T-Star Lab 日常实习）

实习淘天集团T-St

核心职责与研究课题： 1. 研发垂域大模型：面向淘宝复杂工程技术体系，构建懂淘宝上下文的研发垂域大模型。 ①设计面向复杂工程系统的大模型数据构建和训练策略，涵盖离线的研发数据的高质量组织与清洗、在线人机协同的用户轨迹数据组织与迭代、算法训练方式策略选择（CPT、SFT、RL/RLHF）等； ②攻克研发场景的大模型面临的工程系统关系理解、研发领域知识显式记忆与推理、研发域差异化任务规划及工具调用、及情景感知检索等方向难题，打造懂业务、懂架构的研发智能体能力。 2. 端侧大模型探索：结合淘宝开源端侧深度推理引擎 MNN，探索极致高效的端侧大模型技术。 ①摒弃单纯的模型压缩思路，以端侧NPU/CPU/GPU 的硬件特性牵引大模型架构设计，探索并设计适合端侧运行的高效模型架构，在有限算力下突破性能瓶颈； ②负责端侧模型的全流程训练探索，涉及从预训练及后训练优化，结合投机采样、KV Cache优化、混合量化等优化，得到高性能的端侧大模型。 T-Star实习可以带给你什么？ ① 加入前沿技术探索队伍，参与顶级课题研究，有机会实现工业界项目落地。 ② 跟企业大牛导师/学术界名导一起做有价值的课题。 ③ 丰富的技术资源、海量的数据与优秀的团队助力发paper。

更新于 2026-01-21杭州

算法工程师-AIGC数字人视频生成（T-Star Lab日常实习生）

实习淘天集团T-St

如果你，期望在阿里巴巴生态的广阔场景中，借助海量用户数据和先进的技术能力，打造千人千面的个性化数字人形象生产系统，为亿级用户提供高度定制化的虚拟形象服务；如果你，期望攻克高保真语音驱动（Speech-to-Video）的核心难题，研发业界领先的唇形同步、情绪化面部表情及肢体动作生成算法，实现从音频到视频的端到端极致还原，赋予数字人如同真人般的自然表达力与情感共鸣；如果你，期望挑战实时流式生成的技术难题，探索扩散模型与自回归模型的极速推理优化，实现低延迟、高吞吐的视频流实时产出，打破离线渲染的局限，支撑起百万级并发的实时交互直播场景；如果你，期望突破数字人与物理世界的边界，深耕复杂物体交互（Human-Object Interaction）技术，解决数字人在手持商品、展示道具等动态交互过程中的物理规律约束、空间一致性及遮挡还原难题，让数字人在导购、演播等场景中具备真实的物体操控能力；如果你，期望深入探索多模态统一大模型的应用，将视觉、语音、文本与动作序列深度融合，构建具备精细环境感知与逻辑理解能力的数字人系统，在复杂的电商实景中实现人-物-场的高度协同与自然对答。加入我们，你的成果将直接应用于电商领域的核心场景——AI实时直播、智能客服、交互式数字导购，影响数以亿计的用户。在这里，你不仅是在写代码，更是在通过流式架构与交互算法，重新定义未来数字人的无限可能！研究背景：在 AIGC 浪潮下，数字人已从早期的录像进化为动态实时生成。然而，业界仍面临三大核心挑战：交互的自然度：如何让数字人的肢体、表情与复杂的语音情感高度对齐，消除“恐怖谷”效应。物理规律的缺失：在电商直播等场景中，数字人需要手持商品、展示道具，如何解决手部交互（HOI）中的遮挡、形变及空间一致性是当前的技术深水区。实时性的瓶颈：扩散模型效果虽好但推理慢，如何实现低延迟的流式视频生成，是数字人从视频工具走向实时互动的必经之路。研究课题：基于扩散模型的高保真流式视频生成架构研究；复杂场景下的人与物体交互（HOI）视频生成；多模态情感驱动的全身动作与表情协同生成；成长资源： 1、算力自由：远离“算力焦虑”，专注于算法创新。 2、海量高质数据：拥有业界独有的、极其丰富的多模态商业场景数据，未视频生成，HOI等前沿课题提供土壤。 3、鼓励顶会产出：团队在保持业务领先的同时，高度重视学术沉淀。鼓励将研究成果总结并发表至CVPR、SIGGRAP、HNeurIPS 等顶会，支持参加国际学术会议，提升行业影响力。 4、工业界顶级专家的 1v1 指导：团队由来自国内外顶尖院校的博士和工业界资深专家组成，实行“师兄制”，从学术论文投稿到工程落地全过程深度带教。

更新于 2026-01-21北京|杭州