logo of aligenie

智能互联数据技术及产品部-大模型评测专家-code/agentic方向

社招全职3年以上技术类-数据地点:北京 | 杭州状态:招聘

任职要求


1. 深刻理解模型能力发展脉络,能预判下一阶段的评测重点;熟悉从基础能力到复杂能力的演进路径。
2. 理解训练数据的分布和特点,能设计针对性的评测来检验数据效果;具备反作弊意识,能识别模型…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 从模型迭代目标出发,设计覆盖全面、层次清晰的评测体系;明确各维度评测的考核重点和难度梯度。
2. 自主构建高质量评测数据集,包括题目设计、标准答案制定、评测逻辑实现;确保题目区分度、公平性和防污染性。
3. 基于Benchmark结果,为模型团队提供清晰的能力雷达图、短板分析和优化优先级建议。
4. 探索更科学的评测指标、更高效的评测方法。
包括英文材料
相关职位

logo of aligenie
社招5年以上技术类-数据

1.开展音频模型能力评测建设,基于评测的错误类型、分布,能针对性构建音频数据,提高模型特定表现,并能够通过对数据有效性的评测,验证数据有效性; 2.建设AI音频应用业务评测维度、指标体系、业务评测集并开展深入的评测分析工作。产出评测报告,学术benchmark等有影响力的创新工作。

更新于 2026-06-04北京|杭州
logo of tongyi
社招3年以上产品类-用户型

1. 需求收集与分析:与内外部客户,解决方案架构师密切合作,深入收集和分析客户需求和反馈,从复杂的客户场景中提取核心需求。 2. 产品规划与设计:与研发算法团队紧密合作,对LLM基础原理,prompt编写,vision- language等模型能力有较好了解,并定义商业化策略,包括目标客户画像、产品定位和定价策略等。 3. 市场调研与竞争分析:持续跟踪行业技术趋势和竞争对手动态,进行竞争分析。 4. 跨部门协作:与技术、运营、市场等团队紧密合作,确保产品从开发到上线再到推广的全流程顺利进行。

更新于 2025-07-31北京|杭州
logo of quark
社招3年以上技术类-算法

全面负责定义、设计并实现下一代对话系统的核心算法与交互范式,解决当前对话模型在多轮交互、知识应用、共情能力等方面的挑战,探索并引领模型在个性化、主动性、拟人化等前沿方向的技术突破。直接决定数亿夸克用户在Chat场景的与AI 的交互体验,塑造夸克在未来对话式 AI 时代的领先地位。 1. 对话体验定义与规划。深入分析用户意图与行为,结合业务场景,制定并执行对话体验的中长期技术演进路线图。并密切追踪并研究对话式 AI 领域的最新进展,包括主动式对话策略、多模态对话 (语音/视觉融合)、AI Agent 中的对话流控制等。您将主导定义“顶级对话体验”的标准,并将其分解为可落地、可量化的算法迭代目标。 2. 多轮对话与上下文理解。攻坚并解决长程、复杂多轮对话中的核心技术难题,包括但不限于指令遵循、上下文精准理解、长程记忆与遗忘机制、隐式意图识别等。您将设计创新的模型结构与训练策略,使模型具备真正连贯、有逻辑的对话能力。 3. 对话回复准确与全面。主导研发将外部知识 (如搜索、工具调用) 与大模型进行深度、动态融合的先进技术。致力于解决模型在对话中的意图偏离、事实性错误、内容不详实和知识更新不及时等问题,并通过 RAG 新范式或其他创新方法,显著提升对话的准确性与信息量。 4. 评测体系与数据飞轮。建立并完善一套科学、全面的对话能力评测体系,能够精准衡量模型的综合对话质量 (Coherence, Empathy, Informativeness 等)。设计并驱动高效的数据闭环系统,利用真实用户反馈持续、自动化地优化模型。

更新于 2026-06-05北京|杭州
logo of quark
社招3年以上技术类-算法

1. 复杂内容生成链路的设计与优化:基于大语言模型,负责AI视频生产链路(剧本创作,影视制作流水线)的方案设计,效果评估与持续优化,提升创作流程的效果、可控性与一致性 2. 内容创作 Agent 架构设计与实现:主导复杂内容创作 Agent 的架构设计,对任务规划、工具调用、长时记忆、多 Agent 协作、检索增强等核心模块,推动从需求到成稿的高度自动化 3. 新技术探索与落地:跟进 LLM 与 Agent 领域前沿进展(如 long-horizon planning、多智能体协作、Agent 评测体系等),主动发起实验并推动在公司内容产品中规模化落地 4. 跨团队协作与方向推动:与编辑/编剧/导演等业务专家、产品、工程团队紧密合作,沉淀可复用的内容创作 Skill / 评测标准,通过数据回流持续优化核心指标

更新于 2026-06-05北京