阿里巴巴业务技术-多模态算法工程师-Agent方向

社招全职2年以上2026-01-28地点：杭州状态：招聘

扫码手机上打开

任职要求

1.计算机/人工智能/数学等相关专业硕士及以上学历（博士及顶会论文发表者优先）；
2.对大模型前沿技术充满热情，具备攻克复杂技术难题的能力，能够快速实现Paper→Code→Solution的技术转化；
3.精通Python及PyTorch/TensorFlow等框架，具备Qwen、…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

关于我们
我们致力于打造具备“感知-理解-规划-行动”闭环能力的下一代多模态 AI Agent：团队聚焦 GUI Agent（图形用户界面智能体） 与 多模态交互能力 的前沿探索，让 Agent 不仅能“看懂”屏幕、理解用户意图，还能自主操作界面、完成任务，真正实现从“问答助手”到“执行代理”的跃迁。我们相信，多模态感知与 GUI 操作能力是 Agent 走向通用智能的关键一步。期待你加入，共同将“看得见、做得对”的智能体能力转化为业务核心竞争力。

你将获得什么
● 在真实的业务场景中探索GUI Agent的价值：在淘宝、千牛等页面复杂、流量巨大的电商APP中，规模化的落地GUI Agent，自动完成消费者、商家、公司内部产研同学的任务。也可以让GUI Agent成为其他各种业务Agent的工具，让各种Agent具备视觉感知和GUI操作能力。
● 充分探索多模态大模型理解与规划能力的极限：让大模型理解电商垂域场景异常复杂的任务指令、UI界面，使用包括但不限于自动化轨迹数据生成、模型训练、多模态记忆系统、multi-agent架构设计等多种手段，构建最懂电商域的GUI Agent
● 充分的业务场景真实数据与计算资源：团队训练资源充足，能在不同架构/不同规模模型上完成微调、对齐与能力专项提升，并形成可复用的训练范式，充分利用各种开源/闭源模型的能力。
● 个人技术成长：支持多元化方向发展，鼓励对外分享与论文/专利沉淀。

岗位职责
1.主导基于大模型的AI Agent全生命周期研发，重点聚焦多模态Agent建设，包括但不限于GUI Agent/图文理解Agent/图文评估Agent，构建具备视觉感知和推理能力的多模态Agent应用；
2.运用SFT、RL等Post-training训练方法，探索多模态与RL的结合，提升大模型/多模态大模型在自主规划（Planning）、多步推理、多模态RAG、工具调用、UI界面理解、复杂图文理解、局部细节感知等方面的能力；
3.跟踪LLM、VLM与Agent领域的国际前沿技术动态，推动技术创新在业务场景中的落地应用，重点突破任务规划与复杂推理、研发测试自动化、computer use、大规模商品图文分析、图文细节理解与评估等方向的应用创新；
4.持续优化多模态能力与已有Agent架构的集成，快速构建具备多模态能力的Agent应用，提升Agent系统性能与效率，提供AI Agent技术方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

Python+

PyTorch+

TensorFlow+

Llama+

GPT+

还有更多 •••

登录查看完整学习资料

相关职位

多模态算法工程师（Agent方向）-智能创作

社招32N1

团队介绍：智能创作团队是字节跳动的创作场景业务中台，以AI赋能创造，致力于通过AI技术降低创作门槛，赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线，持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景，通过由AI驱动的智能化工具与算法，为用户提供了更智能、更便捷、更丰富的创作体验，助力普通用户轻松实现高质量内容创作，同时为专业创作者提供强大的技术支持，推动内容生态的繁荣与创新。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术； 2、基于通用大模型，结合创作垂类应用场景，进行相关的数据建设、指令微调、偏好对齐、模型优化，升数据合成、模型推理 & 规划能力，构建全面客观准确的评测体系，探索提升垂类大模型能力； 3、探索突破包括而不限于多模态RAG，视觉COT与Agent等在内的多模态模型、世界模型进阶能力，构建以智能创作为核心的多模态AI Agent；推动相关的新技术、新产品落地。

更新于 2020-06-30深圳

算法工程师

社招3年以上研发类

多模态推荐算法工程师 (影像Agent方向) 1. 负责影像Agent核心推荐模块的设计与落地：深度参与影像Agent的意图理解与服务推荐，利用多模态大模型技术，让Agent能精准预判用户需求，主动推荐拍摄建议、创作玩法等； 2. 打造智能相册的创作推荐引擎：基于对照片、视频内容的多维度理解（如美学、情感、事件），为用户在相册编辑场景中，智能推荐个性化的模板、音乐、滤镜及包装特效，引爆创作灵感； 3. 主导影像社交App的内容分发与推荐：负责vivo旗下影像社交平台的内容推荐流，结合用户行为和多模态内容理解，探索前沿的推荐模型，提升优秀作品的曝光率、分发效率与用户粘性； 4. 探索前沿技术的应用与创新：跟进多模态大模型、生成式推荐、Agent等领域的最新进展，结合业务场景进行技术预研和方案设计，持续构筑vivo在智能影像推荐领域的技术壁垒；

更新于 2026-01-29上海|杭州

高德-大模型应用算法工程师-Agent方向

社招2年以上技术类-算法

团队简介我们是高德行中智能团队，我们的使命是基于高德海量高质的数据，最前沿的AI算法，最可靠的通用工程架构，打造有温度、有惊喜、科技感十足的下一代出行体验；在这里，我们一起建设应对超大业务规模和场景，超高业务复杂度的高效、可靠、鲁棒的技术架构；一起用最前沿的机器学习、深度学习、AI算法探索智慧出行最具挑战性的行业难题；一起用最尖端的AIGC、LLM/LVM、多模态理解与生成技术；基于语音、视觉、位置等多模态信息搭建高吞吐、低时延、强智能、真人感的Agent体系，打造全新人和环境交互形态；职位描述探索下一代多模态出行体验基于全双工多模态agent，构建人和环境的全新交互形态

更新于 2025-12-01北京

大模型算法工程师-Agent方向(J10288)

社招3年以上AI项目组

1、参与虎扑内容生态的智能体（Agent）系统研发，构建基于大模型的智能决策与任务执行能力； 2、探索前沿Agent技术路径，结合NLP/多模态/强化学习等方法，打造具备高效感知、理解和行动能力的智能体； 3、推动Agent方案在实际业务场景中的落地，支持智能运营、内容创作、个性推荐等应用； 4、协同产品与工程团队，持续优化Agent系统的性能与用户体验，提升交互智能水平与业务价值。

更新于 2025-09-29上海