阿里巴巴数据技术及产品部-大模型数据处理工程师-音频方向

社招全职3年以上技术类-数据2026-05-22地点：杭州状态：招聘

扫码手机上打开

任职要求

1.语音、音频或自然语言处理领域 3 年以上研发经验；
2.精通 Python 与 SQL，具备数据处理框架（如 Spark / Ray / Dask）实战经验；理解语音模型的训练流程，能区分预训练 / SFT / RLHF 各阶段的数据需求差异；
3.具备实验设计与统计分析能力（A/B 测试、效果归因、置信区间），对数据分布、质量问题、偏见风险有敏锐直觉；
4.对领域前沿保持持续好奇，善于运用 …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.面向阿里集团语音大模型及相关业务场景，参与"评测→数据→训练→再评测"闭环中的数据侧工作，建立从评测信号到数据规格的转化机制，覆盖组件级、系统级、产品能力评测发现的数据需求；
2.执行数据配方实验，通过系统实验研究数据规模、配比、质量对模型行为的影响——这是行业尚无系统答案的研究命题；
3.建设数据质量度量体系，将评价标准从"交付量与标注准确率"升级为"数据对模型效果的可量化贡献"，并参与数据质量标准的建设与验证；
4.建设端到端数据基础设施——采集、清洗、标注、质控、版本管理的自动化（不可变原则与血缘追踪），以及 AI 预标注 + 人工校正流程的最优配比研究；
5.对接算法与模型训练团队，基于实验证据回答"下一轮应使用什么数据。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

Python+

SQL+

Spark+

Ray+

Dask+

还有更多 •••

登录查看完整学习资料