字节跳动视觉多模态应用算法(视频通话方向)实习生-Seed
任职要求
1、2027届硕士及以上学位在读,人工智能、计算机、自动化、数学等相关专业优先; 2、有视频大模型训练、智能硬件相关研究经验者优先,在学术会…
工作职责
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动Seed团队成立于2023年,致力于寻找通用智能的新方法,追求智能上限,为科技和社会发展作出贡献。 Seed团队在AI领域拥有长期愿景与决心,团队研究方向涵盖MLLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。目前,团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、即梦、TRAE等超过50个应用场景,并通过火山引擎开放给企业客户。第三方数据显示,豆包App用户量在中国市场排名第一,豆包大模型日均Token调用量行业领先。 1、参与视频通话模型Post-training的优化和研发,包括通话长多轮对话体验的优化、视觉感知能力、联网搜索能力、记忆、Agent调用能力等; 2、研发视频通话的新特性,包括主动响应、音视频双工等特性; 3、参与智能硬件相关能力的优化,提升端到端用户体验; 4、探索各种前沿创新性技术,并转化为应用侧效果。
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、多模态大模型Post-Training全链路优化:参与SFT、RL、Agent训练等核心算法的调优与创新,围绕搜索、教育、医疗等业务场景进行定向能力打磨,提升模型在真实任务中的效果与稳定性; 2、视频通话AI体验与多模态融合:参与视频通话基础AI能力的优化,包括视觉理解、长多轮对话、逻辑推理、联网搜索等;同时参与创新特性研发,如视频Memory、智能主动响应、音视频双工等,并推动多模态推理、智能体等技术在产品中的落地; 3、可穿戴硬件端AI能力与端云协同:协同优化端侧执行链路与服务端多模态模型的适配效果,打通端云协同流程,提升视频通话及硬件联动场景下的端到端体验; 4、手机助手基础体验与智能特性研发:参与手机助手的视觉理解、工具调用、跨应用任务规划等基础能力优化;同时参与手机Memory、GUI Agent、Intent理解等新特性的研究与落地,提升整体交互体验。
1、 主导/核心参与全模态大模型(文本、图像、视频、音频、3D等)的模型架构与核心算法设计、训练及优化,探索跨模态对齐、多模态融合和原生多模态等前沿技术创新; 2、 开发全模态大模型在具体场景中的应用落地(如实时AI视频通话等方向),将全模态大模型技术与业务需求结合,推动场景化落地; 3、 解决全模态大模型训练和推理的挑战性问题(如模态对齐、长序列建模、高效推理等),跟踪相关领域在学术界与工业界的最新进展等。
1、 主导/核心参与全模态大模型(文本、图像、视频、音频、3D等)的模型架构与核心算法设计、训练及优化,探索跨模态对齐、多模态融合和原生多模态等前沿技术创新; 2、 开发全模态大模型在具体场景中的应用落地(如实时AI视频通话等方向),将全模态大模型技术与业务需求结合,推动场景化落地; 3、 解决全模态大模型训练和推理的挑战性问题(如模态对齐、长序列建模、高效推理等),跟踪相关领域在学术界与工业界的最新进展等。
