logo of bytedance

字节跳动音频多模态推理实习生-Seed大模型人才实习

实习兼职A58356地点:北京状态:招聘

任职要求


1、2028届及以后本科及以上学历在读,人工智能、计算机、自动化、数学相关专业优先;
2、熟练使用GPT、Claude、Gemini,Codex等Vibe Coding来提效工作,尤其是能够提高优化上限的经验者优先;
3、精通高性能计算优化技术,深入理解计算机体系结构,熟悉CUDA生态,有CUDA/NC…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,为科技和社会发展作出贡献。
Seed 团队在 AI 领域拥有长期愿景与决心,团队研究方向涵盖 MLLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。目前,团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、即梦、TRAE 等超过 50 个应用场景,并通过火山引擎开放给企业客户。第三方数据显示,豆包 App 用户量在中国市场排名第一,豆包大模型日均 Token 调用量行业领先。

1、负责音视频多模态场景大模型推理的性能优化,开发和优化多模态场景的推理系统,确保离在线推理性能达到业界领先水平;
2、与算法同学深度合作,开展算法与训推系统的联合深度优化,支撑部门前沿技术的探索及落地;
3、负责机器学习系统前瞻技术的调研与引入,持续提升部门关键技术竞争力,涵盖高性能推理框架、模型压缩等方向。
包括英文材料
学历+
GPT+
CUDA+
还有更多 •••
相关职位

logo of aliyun
实习阿里云研究型实习

随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。

更新于 2025-04-07北京|杭州|上海
logo of tongyi
实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1. 多模态联合建模 -研究构建音视频联合表征的编码方法。 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2. 多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 3. 技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。

更新于 2025-04-25杭州
logo of tongyi
实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术,实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法,支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解,包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法,设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式,为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。

更新于 2025-04-23北京|杭州
logo of xiaohongshu
实习大模型

本课题的研究目标是增强大模型的通用推理能力,通过研究多模态环境下的推理学习机制、真实世界任务的解决策略、基于强化学习的能力优化,以及构建多样性的奖励系统和训练环境。 研究将聚焦于如何使模型能够在跨领域和复杂场景中综合运用文本、图像、音频等多模态信息进行推理,有效处理现实世界的开放性问题,并通过精心设计的环境反馈机制持续优化模型的决策能力,从而提升AI系统在不同任务下的泛化能力和可靠性。

更新于 2025-08-22上海|北京|杭州