logo of tongyi

通义通义实验室-算法专家-多模态智能体

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机科学、人工智能、机器学习或相关领域的硕士或博士学位。
2. 在多模态、大语言模型、Agent机器学习等一个或多个领域有较深入的研究。
3. 具有出色的分析、解决问题的能力,能深入解决大模型训练、应用存在的问题,有自主探索解决方案的能力者。
4. 能够积极创新, 乐于面对挑战, 负责敬业,优秀的团队合作精神,一起探索新技术,推进技术进…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 探索研究多模态大模型、GUI agent、Agentic RL、AI memory、多模态RAG等前沿技术。
2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,探索面向真实环境的多模态智能体多轮强化学习。
3. 负责跟踪和研究多模态大模型前沿技术调研,参与多模态大模型to C和to B业务场景落地。
包括英文材料
机器学习+
学历+
OpenCV+
NLP+
AI agent+
大模型+
算法+
CVPR+
还有更多 •••
相关职位

logo of quark
社招3年以上技术类-算法

1. 探索研究多模态理解、计算机视觉、大语言模型,GUI agent等前沿技术; 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,探索面向真实环境的多模态智能体多轮强化学习,提升大模型能力; 3. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化。

更新于 2025-08-01北京|杭州
logo of tongyi
社招2年以上技术类-算法

团队介绍: 通义实验室专注于通用人工智能(AGI)、大模型基础研究及行业应用创新。我们以前沿技术探索为驱动,推动大模型赋能千行百业,助力AI创造社会价值,服务云上生态合作伙伴。Mobile-Agent 团队专注于多模态智能体技术研发,覆盖 Android、Ubuntu、Windows 等多端场景,依托集团业务场景与技术生态,推动前沿 AI 技术落地,提升多端智能交互体验。 职位描述: 1. 探索 Android、Ubuntu、Windows 等多端场景下,面向 GUI 交互、代码生成、Tool Use等场景的通用多模态 Agent 构建,助力提升多端智能体的交互能力与适配性; 2. 开展多模态理解、强化学习、Tool Use等前沿技术的研究与实践; 3. 进行多端相关数据建设、评测体系搭建,参与提升数据合成质量、模型规划能力等工作,为多模态智能体技术研发提供支撑; 4. 利用预训练、仿真等技术,协助对多端虚拟/现实场景环境进行建模,研发以多模态智能体为核心的技术原型

更新于 2025-11-29北京|杭州
logo of tongyi
社招3年以上技术类-算法

1. 具身智能大模型研究与优化 (1) 研究和构建具身智能大模型(Embodied Foundation Models)与机器人大脑。 (2) 探索语言、视觉、动作等多模态融合机制(VLM / VLA / VLA-Agent)。 (3) 优化模型的长时记忆、推理能力与可泛化性。 2. 机器人智能算法研发 (1) 设计和实现机器人多模态感知、导航、操作、交互等核心算法模块。 (2) 推进大模型驱动的机器人任务规划与决策。 (3) 基于模拟器与真实世界数据,进行大规模对齐与强化学习(Sim2Real, RLHF, Imitation Learning)。 3. 系统落地与协同研发 (1) 与硬件与系统团队协作,推动模型算法在真实机器人平台上的部署与性能调优。 (2) 支撑具身智能大模型的云端训练体系、数据闭环与MLOps工程。 (3) 发表高水平论文或申请相关专利,推动业界与学界前沿研究。

更新于 2025-12-02北京|杭州
logo of alibaba
社招5年以上技术类-算法

● 作为多模态搜索算法团队的负责人,主导构建全球领先的AI驱动跨境B2B搜索引擎,帮助全球买家高效寻找优质制造工厂。 ● 带领团队攻克复杂采购需求的理解难题,支持用户通过图像、图文、Excel表格、PDF文档等多模态输入方式表达采购意图,实现端到端智能解析与语义理解。 ● 设计并落地先进的多模态融合架构,结合视觉、语言与结构化数据理解技术,提升对产品规格、工艺要求、批量参数等关键信息的精准提取能力。 ● 构建高精度、可扩展的搜索引擎匹配系统,融合语义推理、知识构建与向量检索技术,实现“所想即所得”的智能搜索体验。 ● 与产品、工程及业务团队深度协作,洞察业务需求,定义合理的技术路线图,推动技术创新与产品落地。

更新于 2025-10-10杭州