logo of aligenie

智能互联数据技术及产品部-大模型评测专家-语音方向

社招全职5年以上技术类-数据地点:北京 | 杭州状态:招聘

任职要求


1.语音学,语言学,音频算法专业相关专业背景,对语音领域专业知识熟悉;
2.对于音频大模型tts,as…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.开展音频模型能力评测建设,基于评测的错误类型、分布,能针对性构建音频数据,提高模型特定表现,并能够通过对数据有效性的评测,验证数据有效性;
2.建设AI音频应用业务评测维度、指标体系、业务评测集并开展深入的评测分析工作。产出评测报告,学术benchmark等有影响力的创新工作。
包括英文材料
算法+
大模型+
还有更多 •••
相关职位

logo of aligenie
社招5年以上技术类-数据

负责搭建并管理面向语音领域大模型的全链路数据体系,包括数据评测、加工、合成与标注。作为模型算法团队与数据采集团队的核心桥梁,确保高质量、多样化数据供给。主要包括以下: 1. 评测体系构建:主导音频领域大模型的评测标准制定,建立涵盖理解、生成、对齐、安全四大维度的评估框架,设计人工评测与自动评测相结合的混合评估方案,搭建评测数据集、生产管线,建立与SOTA模型的对比评测机制,输出专业评测报告。 2. 数据链路架构:构建大规模语音训练数据的全生命周期处理链路:采集→清洗→去重→质量筛选→格式标准化→安全过滤,搭建数据质量监控体系,建立数据价值评估模型,确保高信息密度数据的持续供给; 3. 标注规范与质量体系:制定细粒度多模态标注规范;建立分层质检机制确保标注的质量;设计标注人员培训体系与能力认证标准,搭建领域专家标注团队。

更新于 2026-04-03北京|杭州
logo of aligenie
社招3年以上技术类-综合

1、搭建具有通用性和可拓展性的语音大模型数据标注和模型评测框架(NLP、TTS、ASR等方向),与算法团队对齐标准、撰写相关培训方案,根据模型迭代方向提供高质量数据,对自动化链路搭建、数据质量评估及外部资源管理负责; 2、结合行业趋势及业务应用场景,迭代更新评测标准、构建评测题库,负责语音大模型效果评测,定期反馈评估结果,产出评估报告,确保大模型评估结果置信; 3、通过PE、代码、Workflow、Agent完成数据预处理、分析和清洗,按照训练需求进行标注、分析和验证调优,提升模型效果; 4、与产品算法团队协同,积极探索自动化数据生产/模型评估、数据合成等方法,提高数据标注/评测效率,持续跟踪大模型技术进展,持续探索智能高效的数据生产模式。

更新于 2026-04-03北京|杭州
logo of dingtalk
社招3年以上技术类-开发

我们正在寻找一位兼具技术深度与业务洞察力的大模型评测工程师,加入核心AI评测团队。你将主导构建面向真实业务场景的多目标评测体系,基于最新的Agent框架(如SWE-bench、WebArena、GAIA、AgentBench等)对LLM及多模态大模型进行系统性能力评估,并推动评测流程的AI自动化——让评测本身也由AI驱动。你的工作将直接影响模型选型、迭代方向与产品上线决策,是连接算法研发与业务落地的关键枢纽。 一、评测体系设计与方法论建设 设计并持续迭代公司级大模型评测体系,覆盖纯文本LLM(如Qwen、DeepSeek、Claude、GPT系列)与多模态大模型(图文理解、视频分析、音频交互等),建立"指标-方法-数据-工具"四位一体的评估框架。 跟踪国际前沿评测范式:从传统静态Benchmark(MMLU、GSM8K、HumanEval)到动态Agent评测(SWE-bench Verified、WebArena、GAIA、OSWorld),制定与公司业务对齐的评测方法论。 针对Agent场景(多步推理、工具调用、代码生成与执行、浏览器自动化、多智能体协作等),设计多维能力分层的评测方案,覆盖任务完成率、轨迹质量、工具选择准确率、执行效率与成本等关键指标。 二、真实业务驱动的评测数据集构建 深入理解公司核心业务场景(如智能客服、代码助手、文档理解、数据分析、办公自动化等),从中抽象出可量化的评测任务,设计贴近真实使用情况的评测数据集。 主导评测数据集的标注规范制定与质量控制,综合运用人工标注、模型辅助标注与主动学习策略,确保数据集的高质量与持续演进。 建立数据集的版本管理、难度分级与防泄漏机制,避免训练数据污染评测结果。 三、基于Agent框架的多目标任务评测执行 搭建基于主流Agent框架(LangChain/LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、MCP协议等)的自动化评测流水线,支持大规模、可复现的模型能力基准测试。 执行多目标联合评测:在单次评测任务中同时考察模型在准确性、鲁棒性、安全性、推理效率、幻觉率、指令遵循度、多语言能力等维度的表现,输出多维度雷达分析。 针对多模态Agent场景,设计跨模态联合评测方案,评估模型在图文混合输入、视频理解与操作、语音交互闭环等复杂任务中的综合表现。 四、AI驱动的评测自动化与报告生成 探索并落地"LLM-as-a-Judge"范式:利用强模型(如Claude Opus、GPT-4o等)作为自动化评判器,结合结构化评分Rubric,实现开放式生成任务的高质量自动打分。 构建AI原生的评测报告生成管线:从原始评测日志到可视化分析报告全流程自动化,包括KPI仪表盘、能力雷达图、回归对比、错误案例分析、改进建议等。 建立CI/CD集成的评测门禁:将评测流程嵌入模型迭代流水线,实现每次模型更新后的自动化回归评测与能力变化预警。 五、跨团队协作与技术输出 与算法团队紧密协作,根据评测结果给出模型优化建议,参与模型选型与版本发布的决策评审。 与产品团队对齐业务需求,将产品侧的定性反馈转化为可量化的评测指标与测试用例。 定期输出行业模型能力竞品分析报告与技术白皮书,建立公司在模型评测领域的技术影响力。

更新于 2026-06-05杭州
logo of aligenie
社招2年以上技术类-质量保证

1. 负责 AI 应用的测试设计与自动化测试开发,确保功能正确、性能稳定、体验可靠。 2. 深入理解业务需求和 AI 应用场景,参与需求评审,识别风险点和测试重点。 3. 针对 AI 模型输出的正确性、稳定性、一致性、可用性设计测试策略与测试用例。 4. 跟踪线上质量问题,进行问题复现、日志分析和根因定位,推动问题闭环解决。 5. 持续优化测试策略与流程,总结测试经验,沉淀工具和平台,提高整体测试效率与质量。 6. 与产品、算法工程师、后端/前端工程师紧密合作,保障 AI 功能从需求到上线的质量。

更新于 2026-03-31北京|杭州