logo of alibaba

阿里巴巴数据技术及产品部-大模型数据处理工程师-音频方向

社招全职3年以上技术类-数据地点:杭州状态:招聘

任职要求


1.语音、音频或自然语言处理领域 3 年以上研发经验;
2.精通 PythonSQL,具备数据处理框架(如 Spark / Ray / Dask)实战经验;理解语音模型的训练流程,能区分预训练 / SFT / RLHF 各阶段的数据需求差异;
3.具备实验设计与统计分析能力(A/B 测试、效果归因、置信区间),对数据分布、质量问题、偏见风险有敏锐直觉;
4.对领域前沿保持持续好奇,善于运用 …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.面向阿里集团语音大模型及相关业务场景,参与"评测→数据→训练→再评测"闭环中的数据侧工作,建立从评测信号到数据规格的转化机制,覆盖组件级、系统级、产品能力评测发现的数据需求;
2.执行数据配方实验,通过系统实验研究数据规模、配比、质量对模型行为的影响——这是行业尚无系统答案的研究命题;
3.建设数据质量度量体系,将评价标准从"交付量与标注准确率"升级为"数据对模型效果的可量化贡献",并参与数据质量标准的建设与验证;
4.建设端到端数据基础设施——采集、清洗、标注、质控、版本管理的自动化(不可变原则与血缘追踪),以及 AI 预标注 + 人工校正流程的最优配比研究;
5.对接算法与模型训练团队,基于实验证据回答"下一轮应使用什么数据。
包括英文材料
NLP+
Python+
SQL+
Spark+
Ray+
Dask+
还有更多 •••