阿里巴巴业务技术-多模态算法工程师-Agent方向
任职要求
1.计算机/人工智能/数学等相关专业硕士及以上学历(博士及顶会论文发表者优先); 2.对大模型前沿技术充满热情,具备攻克复杂技术难题的能力,能够快速实现Paper→Code→Solution的技术转化; 3.精通Python及PyTorch/TensorFlow等框架,具备Qwen、…
工作职责
关于我们 我们致力于打造具备“感知-理解-规划-行动”闭环能力的下一代多模态 AI Agent:团队聚焦 GUI Agent(图形用户界面智能体) 与 多模态交互能力 的前沿探索,让 Agent 不仅能“看懂”屏幕、理解用户意图,还能自主操作界面、完成任务,真正实现从“问答助手”到“执行代理”的跃迁。我们相信,多模态感知与 GUI 操作能力是 Agent 走向通用智能的关键一步。期待你加入,共同将“看得见、做得对”的智能体能力转化为业务核心竞争力。 你将获得什么 ● 在真实的业务场景中探索GUI Agent的价值:在淘宝、千牛等页面复杂、流量巨大的电商APP中,规模化的落地GUI Agent,自动完成消费者、商家、公司内部产研同学的任务。也可以让GUI Agent成为其他各种业务Agent的工具,让各种Agent具备视觉感知和GUI操作能力。 ● 充分探索多模态大模型理解与规划能力的极限:让大模型理解电商垂域场景异常复杂的任务指令、UI界面,使用包括但不限于自动化轨迹数据生成、模型训练、多模态记忆系统、multi-agent架构设计等多种手段,构建最懂电商域的GUI Agent ● 充分的业务场景真实数据与计算资源:团队训练资源充足,能在不同架构/不同规模模型上完成微调、对齐与能力专项提升,并形成可复用的训练范式,充分利用各种开源/闭源模型的能力。 ● 个人技术成长:支持多元化方向发展,鼓励对外分享与论文/专利沉淀。 岗位职责 1.主导基于大模型的AI Agent全生命周期研发,重点聚焦多模态Agent建设,包括但不限于GUI Agent/图文理解Agent/图文评估Agent,构建具备视觉感知和推理能力的多模态Agent应用; 2.运用SFT、RL等Post-training训练方法,探索多模态与RL的结合,提升大模型/多模态大模型在自主规划(Planning)、多步推理、多模态RAG、工具调用、UI界面理解、复杂图文理解、局部细节感知等方面的能力; 3.跟踪LLM、VLM与Agent领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点突破任务规划与复杂推理、研发测试自动化、computer use、大规模商品图文分析、图文细节理解与评估等方向的应用创新; 4.持续优化多模态能力与已有Agent架构的集成,快速构建具备多模态能力的Agent应用,提升Agent系统性能与效率,提供AI Agent技术方案。
团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术; 2、基于通用大模型,结合创作垂类应用场景,进行相关的数据建设、指令微调、偏好对齐、模型优化,升数据合成、模型推理 & 规划能力,构建全面客观准确的评测体系,探索提升垂类大模型能力; 3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建以智能创作为核心的多模态AI Agent;推动相关的新技术、新产品落地。
多模态推荐算法工程师 (影像Agent方向) 1. 负责影像Agent核心推荐模块的设计与落地:深度参与影像Agent的意图理解与服务推荐,利用多模态大模型技术,让Agent能精准预判用户需求,主动推荐拍摄建议、创作玩法等; 2. 打造智能相册的创作推荐引擎:基于对照片、视频内容的多维度理解(如美学、情感、事件),为用户在相册编辑场景中,智能推荐个性化的模板、音乐、滤镜及包装特效,引爆创作灵感; 3. 主导影像社交App的内容分发与推荐:负责vivo旗下影像社交平台的内容推荐流,结合用户行为和多模态内容理解,探索前沿的推荐模型,提升优秀作品的曝光率、分发效率与用户粘性; 4. 探索前沿技术的应用与创新:跟进多模态大模型、生成式推荐、Agent等领域的最新进展,结合业务场景进行技术预研和方案设计,持续构筑vivo在智能影像推荐领域的技术壁垒;
团队简介 我们是高德行中智能团队,我们的使命是基于高德海量高质的数据,最前沿的AI算法,最可靠的通用工程架构,打造有温度、有惊喜、科技感十足的下一代出行体验; 在这里,我们一起建设应对超大业务规模和场景,超高业务复杂度的高效、可靠、鲁棒的技术架构;一起用最前沿的机器学习、深度学习、AI算法探索智慧出行最具挑战性的行业难题;一起用最尖端的AIGC、LLM/LVM、多模态理解与生成技术;基于语音、视觉、位置等多模态信息搭建高吞吐、低时延、强智能、真人感的Agent体系,打造全新人和环境交互形态; 职位描述 探索下一代多模态出行体验 基于全双工多模态agent,构建人和环境的全新交互形态
