logo of alibaba

阿里巴巴业务技术-多模态算法工程师-Agent方向

社招全职2年以上地点:杭州状态:招聘

任职要求


1.计算机/人工智能/数学等相关专业硕士及以上学历(博士及顶会论文发表者优先);
2.对大模型前沿技术充满热情,具备攻克复杂技术难题的能力,能够快速实现Paper→Code→Solution的技术转化;
3.精通PythonPyTorch/TensorFlow等框架,具备Qwen、Ll…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.主导基于大模型的AI Agent全生命周期研发,重点聚焦多模态Agent建设,包括但不限于GUI Agent/图文理解Agent/图文评估Agent,构建具备视觉感知和推理能力的多模态Agent应用;
2.运用SFT、RL等Post-training训练方法,探索多模态与RL的结合,提升大模型/多模态大模型在自主规划(Planning)、多步推理、多模态RAG、工具调用、UI界面理解、复杂图文理解、局部细节感知等方面的能力;
3.跟踪LLM、VLM与Agent领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点突破任务规划与复杂推理、研发测试自动化、computer use、大规模商品图文分析、图文细节理解与评估等方向的应用创新;
4.持续优化多模态能力与已有Agent架构的集成,快速构建具备多模态能力的Agent应用,提升Agent系统性能与效率,提供AI Agent技术方案
包括英文材料
学历+
大模型+
Python+
PyTorch+
TensorFlow+
Llama+
GPT+
还有更多 •••
相关职位

logo of bytedance
社招32N1

团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术; 2、基于通用大模型,结合创作垂类应用场景,进行相关的数据建设、指令微调、偏好对齐、模型优化,升数据合成、模型推理 & 规划能力,构建全面客观准确的评测体系,探索提升垂类大模型能力; 3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建以智能创作为核心的多模态AI Agent;推动相关的新技术、新产品落地。

更新于 2020-06-30深圳
logo of amap
社招2年以上技术类-算法

团队简介 我们是高德行中智能团队,我们的使命是基于高德海量高质的数据,最前沿的AI算法,最可靠的通用工程架构,打造有温度、有惊喜、科技感十足的下一代出行体验; 在这里,我们一起建设应对超大业务规模和场景,超高业务复杂度的高效、可靠、鲁棒的技术架构;一起用最前沿的机器学习、深度学习、AI算法探索智慧出行最具挑战性的行业难题;一起用最尖端的AIGC、LLM/LVM、多模态理解与生成技术;基于语音、视觉、位置等多模态信息搭建高吞吐、低时延、强智能、真人感的Agent体系,打造全新人和环境交互形态; 职位描述 探索下一代多模态出行体验 基于全双工多模态agent,构建人和环境的全新交互形态

更新于 2025-12-01北京
logo of hupu
社招3年以上AI项目组

1、参与虎扑内容生态的智能体(Agent)系统研发,构建基于大模型的智能决策与任务执行能力; 2、探索前沿Agent技术路径,结合NLP/多模态/强化学习等方法,打造具备高效感知、理解和行动能力的智能体; 3、推动Agent方案在实际业务场景中的落地,支持智能运营、内容创作、个性推荐等应用; 4、协同产品与工程团队,持续优化Agent系统的性能与用户体验,提升交互智能水平与业务价值。

更新于 2025-09-29上海
logo of netease
社招3年以下网易云音乐

1、负责智能体(AI Agent)相关核心算法的研究与实现,构建具备多模态理解、规划、记忆、工具调用和任务执行能力的自主智能体体系; 2、参与大语言模型(LLM)在多轮对话、任务分解、知识检索、动作执行等环节的能力增强与优化; 3、设计并实现智能体的推理框架(Reasoning Framework),包括上下文记忆、长短期记忆融合(STM/LTM)、反思机制(Reflection Loop)、以及基于反馈的自我迭代策略; 4、负责Agent系统的工具生态构建,包括函数调用(Function Calling)、插件集成(Plugin Integration)、知识库检索(RAG)等,提升模型的可操作性与可解释性; 5、跟进业界前沿的大模型与Agent技术(如OpenAI o1、Anthropic Claude、MCP、LangChain、AutoGPT、OpenDevin等),并探索其在社交、内容、推荐、AIGC、商业化等场景的落地路径; 6、分析与解决模型在多轮推理、长上下文记忆、工具调用策略优化等过程中的技术瓶颈; 7、与产品、平台及算法团队紧密协作,将Agent能力嵌入真实业务流程中,并通过数据反馈实现持续演化。

更新于 2026-01-13杭州