字节跳动角色化多模态模型应用算法工程师/专家-豆包大模型
任职要求
1、优秀的代码能力、数据结构和基础算法功底,熟练C/C++或Python,ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先; 2、熟悉NLP、CV相关的算法和技术,熟悉大模型训练、多模态算法者优先; 3…
工作职责
团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的AI大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、多模态引擎研发:研发融合文本、视觉、语音的角色类大模型,优化角色生成的真实性与情感表达(如虚拟助手、游戏NPC、互动剧角色),突破多模态对齐、长期记忆、行为一致性等技术难点; 2、极致性能优化:超大规模模型的分布式训练优化,提升角色类模型的推理效率与资源利用率,指令微调、偏好对齐、数据增强等技术的场景化创新; 3、业务场景落地:支持豆包、猫箱等产品的角色生成需求,覆盖对话、创作、教育等场景,探索角色模型在智能硬件、元宇宙等领域的沉浸式交互能力; 4、前沿探索:研究人格化模型在情感计算、社会常识推理等方向的突破,定义AI角色从「功能执行」到「人格化陪伴」的技术范式。
我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 1. 多模态大模型研发与应用 负责多模态大模型的核心架构设计,研究并实现图片、视频、文本等跨模态特征对齐、融合与表征学习方法,负责多模态大模型的数据准备、高效训练(包括但不限于预训练、SFT、强化学习等)、推理加速等。 2. 模型优化与小型化部署 负责多模态大模型的轻量化设计、压缩与加速,确保模型在端侧设备上的高效运行。 针对高德地图的实际业务场景,优化模型性能,平衡精度与效率。 3. 创新性研究与落地 跟踪端侧生成式AI(Edge Generative AI)、强化学习(PPO、GRPO等)、智能Agent等前沿技术,探索多模态大模型在自动驾驶、智能导航等领域的潜在应用。 将研究成果快速转化为实际产品功能,推动技术创新与业务增长。
团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、多模态引擎研发:研发融合文本、视觉、语音的角色类大模型,优化角色生成的真实性与情感表达(如虚拟助手、游戏 NPC、互动剧角色),突破多模态对齐、长期记忆、行为一致性等技术难点; 2、极致性能优化:超大规模模型的分布式训练优化,提升角色类模型的推理效率与资源利用率,指令微调、偏好对齐、数据增强等技术的场景化创新; 3、业务场景落地:支持豆包、猫箱等产品的角色生成需求,覆盖对话、创作、教育等场景,探索角色模型在智能硬件、元宇宙等领域的沉浸式交互能力; 4、前沿探索:研究人格化模型在情感计算、社会常识推理等方向的突破,定义AI角色从「功能执行」到「人格化陪伴」的技术范式。
蚂蚁国际全球技术AI智能部正在寻找有激情并且具有创新能力的算法专家,通过使用AI 特别是生成式人工智能技术,推动蚂蚁国际化业务的发展。蚂蚁集团是一家AI驱动的公司,国际化是蚂蚁集团的重点方向,在这个职位上,你有机会接触到互联网金融,人工智能,国际化这3个当前最热门领域。 国际AI智能部负责大模型算法的创新应用与落地,同时也负责蚂蚁国际的 AI 基础设施和应用平台的建设。我们正在寻找热爱大模型的优秀人才加入我们。 其中,金融 AI 与大模型应用平台团队负责蚂蚁国际的金融 AI 业务,如基于大模型的金融助理在海外钱包的落地,以及蚂蚁国际的 AI 平台与基础设施建设,通过更加高效的训练和推理能力,以及结合 Agent 的平台研发助力蚂蚁国际全面拥抱生成式人工智能达成 AI 为先的战略。 1.负责大模型技术前沿技术跟踪、创新和落地。负责文本以及多模态大模型算法研发,对图片语音文本进行跨模型理解和生成。通过大模型算法创新和优化,致力提升大模型算法的场景落地和业务增效; 2.负责研发知识增强大语言模型技术,包括大模型领域适配、知识对齐、知识增强等,深入挖掘垂直行业、开源以及蚂蚁的海量数据,构建行业知识库,以支持相关技术的蚂蚁国际各个业务中的持续创新和实践应用; 3.负责垂直领域大模型算法开发,通过持续预训练和多任务模型微调,提升垂直大模型的核心技术价值和平台化落地; 4.深度参与产品研发项目,与团队成员合作,共同推动人工智能技术在实际业务中的应用和落地; 5.深入跟踪调研大语言模型以及相关方向(包括但不限于LLM/多模态等)的前沿技术,并适时进行技术分享。推动相关领域技术创新,进行专利申请和学术文章发表。
1.拟人SFT数据构建与策略设计 (1)负责面向超拟人语音交互场景的SFT数据方案设计,涵盖角色人设一致性、多轮对话逻辑、情感表达等维度,构建高质量对话语料。 (2)针对多模态交互、A陪伴等需求,设计角色扮演数据的标注规范,包括身份背景、经典台词、行为模式等细粒度标签。 (3)基于业务场景(如儿童教育、情感陪伴、游戏NPC、模拟面试等)设计符合角色设定的对话逻辑,提升用户交互沉浸感。 (4)建立SFT数据评估体系,针对人设一致性、意图识别准确率、对话流畅度等指标进行量化分析与迭代。 2.SFT数据在语音交互模型中的优化 (1)结合语音交互链路(ASR→LLM→TTS),通过SFT技术优化大模型的对话能力,重点提升上下文理解、情感响应准确度及多轮对话连贯性。 (2)探索角色扮演数据在语音Agent中的应用,例如通过Prompt工程控制对话风格、情绪倾向,实现个性化交互体验。 (3)协同声纹识别、情感计算等技术,构建语音-文本-用户画像对齐的数据集,支持个性化交互(如儿童声线识别、成人情感分析)。 (4)推动SFT数据在低延迟语音交互场景的落地,优化端到端响应效率(如实时打断、长上下文记忆等能力)。