智能互联千问C端事业群-大模型智能化评测专家-杭州/深圳/上海

社招全职3年以上技术类-质量保证2026-03-30地点：深圳 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 3-5 年测试工作经验，有多模态算法/大模型/音视频/图像算法等之一工作背景，有服务端算法测试、大模型评测，数据集构造等测试经验；
2. 具有自然语言处理、计算机视觉、语言大模型、多模态大模型、大模型评测、AIGC等相关经验优先；
3. 能够主导大型项目的整体测试工作，包括测试分析、测试用例落地、…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责智能互联多模态算法测试，熟悉算法工程全链路评测，可以独立设计如图像处理算法（如目标检测、图像识别、OCR等）的评测方案，数据集，评测工程等，确保算法精度与性能符合需求；
2. 建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设，包括评测集完备性，合理性建设，评测结果智能化判定，能够基于业务需求设计评测方案，开展多维度模型评估，输出专业评测报告；
3. 追踪大模型方向前沿进展，积极主动地学习和探索新的评测及分析的方法和技术。主导项目全链路质量保障和风险识别工作，搭建质量技术保障体系、制定质量保障规范、推进测试工作执行；
4. 协同项目中多角色、多合作团队形成积极有效的沟通和互动，驱动问题解决，保障交付质量。主动创新，通过技术手段解决质量保障工作中的复杂技术问题，提升测试效能、加深质量工作技术积累。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

大模型+

NLP+

还有更多 •••

登录查看完整学习资料

相关职位

千问C端事业群-大模型智能化评测专家-杭州/深圳/上海

社招3年以上技术类-质量保证

1. 负责智能互联多模态算法测试，熟悉算法工程全链路评测，可以独立设计如图像处理算法（如目标检测、图像识别、OCR等）的评测方案，数据集，评测工程等，确保算法精度与性能符合需求； 2. 建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设，包括评测集完备性，合理性建设，评测结果智能化判定，能够基于业务需求设计评测方案，开展多维度模型评估，输出专业评测报告； 3. 追踪大模型方向前沿进展，积极主动地学习和探索新的评测及分析的方法和技术。主导项目全链路质量保障和风险识别工作，搭建质量技术保障体系、制定质量保障规范、推进测试工作执行； 4. 协同项目中多角色、多合作团队形成积极有效的沟通和互动，驱动问题解决，保障交付质量。主动创新，通过技术手段解决质量保障工作中的复杂技术问题，提升测试效能、加深质量工作技术积累。

更新于 2026-03-30杭州|深圳|上海

千问C端事业群-大模型应用算法专家-教育智能体

社招2年以上技术类-算法

1. 负责千问学习核心智能体算法研发与优化，使用大模型实现题目理解与分析、AI学情诊断分析、学习规划等核心agent。 2. 负责智能学习助手算法研发与优化，包括大模型在智能决策、RAG、个性化推荐等领域的应用。

更新于 2026-04-02北京

千问C端事业群-大模型Agent算法专家（生态合作与智能协议）-杭州/北京

社招2年以上技术类-算法

我们正在重新定义“千问”：从一个博学的对话者进化为具备执行力的数字实体。我们的核心使命是构建一套统一的认知架构，打破模型与现实世界的壁垒。通过 Skill-based Agent 技术，实现从“语义理解”到“任务闭环”的跨越，让 AI 真正深入生产力场景，实现数字世界与物理世界的高效连接 1. 统一认知架构设计与能力演进： - 深度对接阿里集团内部及外部第三方服务，设计并实现高效、稳定的 Agent 框架。负责将复杂的业务逻辑抽象为可插拔的配置、标准化的工具，供大模型理解与调用。 - 设计 skill-based 【统一Agent】架构，实现长程规划与自我反思能力的统一认知架构，以协调内部的推理、记忆和执行模块，实现统一智能体在跨场景、长链条任务上的优异表现。 - 推动并构建一个动态的“千问能办” skill library，将海量、异构的原子能力抽象为该统一智能体可学习、可组合、可泛化的skill，探索自动化技能发现与组合优化的前沿方法。 2. 核心场景算法优化： ⁃长程规划与决策优化：针对复杂复合需求，研发先进的任务分解与多步推理算法，解决长链条执行中的错误积累与漂移问题。 -Agentic-RL 策略：构建基于环境反馈的强化学习（RLHB/RLAIF）体系，通过在模拟环境中的大规模探索，提升 Agent 在极端场景下的鲁棒性与决策上限。 -领域知识注入：针对高频场景（学习、办公、生活）进行长程预训练与持续学习，让 Agent 不仅拥有通用逻辑，更具备深度的行业专家意识。 3. 实际需求驱动迭代： - 建立科学、全面的Agent评测体系，通过线上数据分析、Bad Case挖掘，精准定位模型在幻觉、误拒答、组合泛化、执行失败等方面的瓶颈。 - 领导数据驱动的迭代飞轮，不仅是利用线上反馈进行微调，更要探索世界模型模拟、合成数据生成、以及基于AI反馈的强化学习等手段，高效、规模化地提升统一智能体的能力上限。

更新于 2026-03-31北京|杭州

千问C端事业群-大模型Agent算法专家（生态合作与智能协议）-杭州/北京

社招2年以上技术类-算法

更新于 2026-03-31北京|杭州