字节跳动视觉多模态算法研究实习生(多模态应用方向)-Top Seed Intern
任职要求
1、2026届及以后本科及以上学历在读,人工智能、计算机、自动化、数学相关专业优先; 2、可长期实习半年或以上,有意向拿校招Offer者优先; 3、扎实的数据结构和算法设计基础,熟练掌握Python/C++中的一种或多种,熟练掌握Pytorch、Tensorflow等深度学习框架; 4、有良…
工作职责
Top Seed人才计划-豆包大模型研究实习生专项:面向 2025 年 9 月及以后毕业的博士及本硕在读同学,加入我们,你可以自主决定研究课题,与正式员工享受同等权限和资源,和优秀的研究员一起,向智能上限发起挑战。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与视觉多模态领域的前沿算法研究,发表国际顶级论文、申请专利; 2、深入调研和关注多模态/NLP/CV等方向的前沿技术,应用解决业界实际问题的机会以及经验; 3、良好的团队氛围,丰富的计算和数据资源。
1. 将深度学习图形图像领域技术结合游戏场景进行创新研究; 2. 负责计算机视觉/图形学相关核心技术在游戏相关领域的算法与落地应用工作,包括但不限于如下方向:3D生成,3D重建,3D人脸/头发/人体,表情/动作,渲染,蒙皮,材质等; 3. 借助游戏平台及数据推动技术前沿的发展,并且能够快速落地应用到业务中; 4. 发表高质量论文或撰写专利,提升技术影响力。
【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。
尽管当前的多模态大模型(融合视觉、语音、文本)已展现出强大的感知与理解潜力,但是在实时交互场景中,由于模型设计导致的高延迟、生硬的轮次状态、频繁的打断或被打断严重影响信息传递效率。同时多个模态无法实时融合也限制了多模态模型在语音交互场景下的深度应用。生成的交互内容有时显得冗长、缺乏提炼或智能不足,这些问题限制了用户与大模型实时交流的体验。 本课题的目标是设计并验证一种全模态实时交互的大模型架构,将视觉模态、语音流模态、思考模态信息以及 SOTA LLM 进行实时融合。从而使得大模型可以与人进行即时、流畅、且深入浅出、富有智慧的多模态自然语音对话。