logo of bytedance

字节跳动视觉多模态算法研究实习生(多模态应用方向)-豆包大模型

实习兼职A121058地点:北京状态:招聘

任职要求


1、博士学位在读,人工智能、计算机、自动化、数学相关专业优先;
2、扎实的数据结构算法设计基础,熟练掌握Python/C++中的一种或多种,熟练掌握Pytorch、Tensorflow等深度学习框架;…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。
团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。

1、参与研发前沿算法,发表国际顶级论文、申请专利;
2、深入调研和关注多模态/NLP/CV等方向的前沿技术,应用解决业界实际问题的机会以及经验;
3、良好的团队氛围,丰富的计算和数据资源。
包括英文材料
学历+
数据结构+
算法+
Python+
C+++
还有更多 •••
相关职位

logo of netease
实习网易有道

负责智能硬件相关图像生成、多模态OCR算法训练、调优与评测; 参与多模态大模型在教育领域的研究和应用探索; 协助团队完成相关技术文档的整理与撰写。

更新于 2025-06-18北京
logo of netease
实习网易伏羲

1. 将深度学习图形图像领域技术结合游戏场景进行创新研究; 2. 负责计算机视觉/图形学相关核心技术在游戏相关领域的算法与落地应用工作,包括但不限于如下方向:3D生成,3D重建,3D人脸/头发/人体,表情/动作,渲染,蒙皮,材质等; 3. 借助游戏平台及数据推动技术前沿的发展,并且能够快速落地应用到业务中; 4. 发表高质量论文或撰写专利,提升技术影响力。

更新于 2025-04-17杭州
logo of xiaohongshu
实习大模型

【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。

北京
logo of xiaohongshu
校招大模型

尽管当前的多模态大模型(融合视觉、语音、文本)已展现出强大的感知与理解潜力,但是在实时交互场景中,由于模型设计导致的高延迟、生硬的轮次状态、频繁的打断或被打断严重影响信息传递效率。同时多个模态无法实时融合也限制了多模态模型在语音交互场景下的深度应用。生成的交互内容有时显得冗长、缺乏提炼或智能不足,这些问题限制了用户与大模型实时交流的体验。 本课题的目标是设计并验证一种全模态实时交互的大模型架构,将视觉模态、语音流模态、思考模态信息以及 SOTA LLM 进行实时融合。从而使得大模型可以与人进行即时、流畅、且深入浅出、富有智慧的多模态自然语音对话。

更新于 2026-03-28上海|北京|杭州