米哈游【提前批】视频生成模型加速工程师
任职要求
1、学历背景:计算机科学、软件工程、人工智能等相关专业本科及以上学历 2、编程能力:精通Python、C++,熟悉CUDA编程,具备扎实的算法和数据结构基础 3、深度学习基础:深入理解深度学习原理,熟练使用PyTorch等主流框架,熟悉模型量化技术(INT8、FP16、混合精度等) 4、系统能力:了解计算机系统架构,具备基本的性能分析和调优能力,熟悉KV-cache优化等技术 5、学习能力:对前沿AI技术有强烈兴趣,具备快速学习新技术的能力 加分项 1、有Diffusion模型(DDPM、DDIM、DPM-Solver等)、flash attention的实际优化经验,熟悉torchtitan、fastvideo等框架的 2、熟悉视频DiT模型架构,例如参与开源Wan、Hunyuan视频生成模型项目,有相关开源项目贡献 3、优化过H200 GPU架构
工作职责
专注于前沿AI模型的性能优化和推理加速,深度参与Diffusion模型、视频DiT(Diffusion Transformer)模型以及Auto-regressive模型的加速优化工作,推动AI模型在生产环境中的高效部署和应用。 核心职责: 1、模型算法与架构优化:实现模型压缩技术(量化、剪枝、蒸馏等)、开发针对特定模型架构的专用优化算法、设计高效的分布式推理架构,支持大规模并发服务 2、模型推理优化:优化视频生成DiT模型的推理效率,降低显存占用和计算延迟、研究加速Auto-regressive模型方案 3、系统工程实现:开发高性能的自定义CUDA kernel和算子,集成和优化推理框架,构建高可用的模型服务系统 4、性能调优与监控:建立模型性能基准测试体系,分析和解决推理过程中的性能瓶颈,持续优化大规模GPU集群的资源利用率
1、评测体系设计: 建立视频生成结果的多维度评估标准,包括但不限于内容准确性、视觉质量、时序一致性、语义理解等专业维度 2、评测模型架构搭建: 设计并实现视频生成评测模型的整体架构,包括特征提取、多模态融合、评分机制等核心模块,构建可扩展的评测系统框架,支持多种视频生成模型的批量评估 3、制定大规模标注规则: 主导视频生成质量的大规模数据标注项目,制定标注规范,管理标注质量 4、自动评测模型训练优化: 基于标注数据进行评测模型的训练、调优和迭代,持续提升评测精度和泛化能力 5、技术创新: 跟踪前沿技术发展,将最新研究成果应用到评测系统中
专注于统一视频理解和生成模型的研究与开发,参与构建下一代视频AI系统,探索视频内容的深度理解与高质量生成的统一建模方法,推动视频AI在理解、编辑、生成等任务上的技术突破。 核心职责: 1、统一视频模型架构设计 2、前沿技术探索与实现,探索Diffusion Model、Auto-regressive Model在视频生成和理解的统一建模 3、研究文本-视频-音频多模态对齐技术和条件控制方法 4、大规模音视频理解和生成模型训练及优化
专注于统一音频生成模型的研究与开发,参与构建下一代语音、歌声、音乐、音效等多类型音频生成基础模型,探索大语言模型与音频生成的深度技术融合,推进音频-视频联合生成,推动audio AI在语音/歌声合成、音乐创作、音效生成、视频配音等场景的技术突破。 核心职责: 1. 模型架构与训练:负责统一音频生成模型设计与分布式优化,实现语音/歌声合成+音效生成+音视频联合生成的多任务统一建模 2. Audio Tokenization:研究连续/离散token的音频表征,优化压缩效率与重建质量的最优平衡 3. 跨模态融合:探索大语言模型与音频生成融合技术 4. 数据管线:参与设计并落地大规模高质量多模态生成数据集,覆盖语音、歌声、音乐、音效及音视频同步数据处理pipeline
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务; 如果你,期望参与最前沿的高表现力肢体表情驱动技术研发,通过先进的动作捕捉、表情合成和实时渲染技术,实现数字人自然流畅的表情和肢体动作,赋予数字人更真实的情感表达能力; 如果你,期望攻克数字人生成中的核心技术难题,例如基于扩散模型的高质量数字人生成、材质与纹理的高度还原、服饰动态效果的真实模拟,以及在复杂交互场景中保持人物和环境的一致性和自然度; 如果你,期望深入探索多模态统一大模型的应用,将图像、文本、音频等多模态信息融合,构建具备精细理解能力和强大生成能力的数字人系统,解决业界尚未突破的技术瓶颈; 加入我们,你的成果将直用于电商领域的核心场景,直播,客服,导购,影响数以亿计的用户,推动电商领域的数字化创新,并带来巨大的商业和社会价值。让我们一起定义未来数字人的无限可能! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。