智能互联数据技术及产品部-大模型评测专家-code/agentic方向

社招全职3年以上技术类-数据2026-06-06地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 深刻理解模型能力发展脉络，能预判下一阶段的评测重点；熟悉从基础能力到复杂能力的演进路径。
2. 理解训练数据的分布和特点，能设计针对性的评测来检验数据效果；具备反作弊意识，能识别模型…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 从模型迭代目标出发，设计覆盖全面、层次清晰的评测体系；明确各维度评测的考核重点和难度梯度。
2. 自主构建高质量评测数据集，包括题目设计、标准答案制定、评测逻辑实现；确保题目区分度、公平性和防污染性。
3. 基于Benchmark结果，为模型团队提供清晰的能力雷达图、短板分析和优化优先级建议。
4. 探索更科学的评测指标、更高效的评测方法。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

相关职位

数据技术及产品部-大模型评测专家-语音方向

社招5年以上技术类-数据

1.开展音频模型能力评测建设，基于评测的错误类型、分布，能针对性构建音频数据，提高模型特定表现，并能够通过对数据有效性的评测，验证数据有效性； 2.建设AI音频应用业务评测维度、指标体系、业务评测集并开展深入的评测分析工作。产出评测报告，学术benchmark等有影响力的创新工作。

更新于 2026-06-04北京|杭州

通义实验室-大模型产品专家-LLM方向

社招3年以上产品类-用户型

1. 需求收集与分析：与内外部客户，解决方案架构师密切合作，深入收集和分析客户需求和反馈，从复杂的客户场景中提取核心需求。 2. 产品规划与设计：与研发算法团队紧密合作，对LLM基础原理，prompt编写，vision- language等模型能力有较好了解，并定义商业化策略，包括目标客户画像、产品定位和定价策略等。 3. 市场调研与竞争分析：持续跟踪行业技术趋势和竞争对手动态，进行竞争分析。 4. 跨部门协作：与技术、运营、市场等团队紧密合作，确保产品从开发到上线再到推广的全流程顺利进行。

更新于 2025-07-31北京|杭州

千问事业部-千问/夸克-大模型高级算法专家-Chat方向

社招3年以上技术类-算法

全面负责定义、设计并实现下一代对话系统的核心算法与交互范式，解决当前对话模型在多轮交互、知识应用、共情能力等方面的挑战，探索并引领模型在个性化、主动性、拟人化等前沿方向的技术突破。直接决定数亿夸克用户在Chat场景的与AI 的交互体验，塑造夸克在未来对话式 AI 时代的领先地位。 1. 对话体验定义与规划。深入分析用户意图与行为，结合业务场景，制定并执行对话体验的中长期技术演进路线图。并密切追踪并研究对话式 AI 领域的最新进展，包括主动式对话策略、多模态对话 (语音/视觉融合)、AI Agent 中的对话流控制等。您将主导定义“顶级对话体验”的标准，并将其分解为可落地、可量化的算法迭代目标。 2. 多轮对话与上下文理解。攻坚并解决长程、复杂多轮对话中的核心技术难题，包括但不限于指令遵循、上下文精准理解、长程记忆与遗忘机制、隐式意图识别等。您将设计创新的模型结构与训练策略，使模型具备真正连贯、有逻辑的对话能力。 3. 对话回复准确与全面。主导研发将外部知识 (如搜索、工具调用) 与大模型进行深度、动态融合的先进技术。致力于解决模型在对话中的意图偏离、事实性错误、内容不详实和知识更新不及时等问题，并通过 RAG 新范式或其他创新方法，显著提升对话的准确性与信息量。 4. 评测体系与数据飞轮。建立并完善一套科学、全面的对话能力评测体系，能够精准衡量模型的综合对话质量 (Coherence, Empathy, Informativeness 等)。设计并驱动高效的数据闭环系统，利用真实用户反馈持续、自动化地优化模型。

更新于 2026-06-05北京|杭州

千问事业部-Agent 算法专家（AI内容创作）-北京

社招3年以上技术类-算法

1. 复杂内容生成链路的设计与优化：基于大语言模型，负责AI视频生产链路（剧本创作，影视制作流水线）的方案设计，效果评估与持续优化，提升创作流程的效果、可控性与一致性 2. 内容创作 Agent 架构设计与实现：主导复杂内容创作 Agent 的架构设计，对任务规划、工具调用、长时记忆、多 Agent 协作、检索增强等核心模块，推动从需求到成稿的高度自动化 3. 新技术探索与落地：跟进 LLM 与 Agent 领域前沿进展（如 long-horizon planning、多智能体协作、Agent 评测体系等），主动发起实验并推动在公司内容产品中规模化落地 4. 跨团队协作与方向推动：与编辑/编剧/导演等业务专家、产品、工程团队紧密合作，沉淀可复用的内容创作 Skill / 评测标准，通过数据回流持续优化核心指标

更新于 2026-06-05北京