logo of aligenie

智能互联数据技术及产品部-大模型数据研发工程师-语音方向

社招全职3年以上技术类-数据地点:北京 | 杭州状态:招聘

任职要求


1.语音、音频或自然语言处理领域 3 年以上研发经验;
2.精通 PythonSQL,具备数据处理框架(如 Spark / Ray / Dask)实战经验;理解语音模型的训练流程,能区分预训练 / SFT / RLHF 各阶段的数据需求差异;
3.具备实验设计与统计分析能力(A/B 测试、效果归因、置信区间),对数据分布、质量问题、偏见风险有敏锐直觉;
4.对领域前沿保持持续好奇,善于运用 …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.面向阿里集团语音大模型及相关业务场景,参与"评测→数据→训练→再评测"闭环中的数据侧工作,建立从评测信号到数据规格的转化机制,覆盖组件级、系统级、产品能力评测发现的数据需求;
2.执行数据配方实验,通过系统实验研究数据规模、配比、质量对模型行为的影响——这是行业尚无系统答案的研究命题;
3.建设数据质量度量体系,将评价标准从"交付量与标注准确率"升级为"数据对模型效果的可量化贡献",并参与数据质量标准的建设与验证;
4.建设端到端数据基础设施——采集、清洗、标注、质控、版本管理的自动化(不可变原则与血缘追踪),以及 AI 预标注 + 人工校正流程的最优配比研究;
5.对接算法与模型训练团队,基于实验证据回答"下一轮应使用什么数据";
6.参与数据方向方法论研究并产出顶级会议论文(ICASSP / Interspeech / ACL 等);
7.示例研究方向(任选其一深入负责):(1) 数据质量研究方向——主导数据配比 / 筛选 / 去重 / 去噪对模型效果的影响实验、真实数据 vs 合成数据 vs 数据增强对比、数据缺口分析;(2) 数据工具与基础设施方向——建设端到端数据基础设施、数据版本管理、AI 预标注流程、数据质量度量工具。
包括英文材料
NLP+
Python+
SQL+
Spark+
Ray+
Dask+
还有更多 •••
相关职位

logo of ke
社招3年以上新房平台研发部

1.负责业务质量保证工作,包括需求分析评审、测试计划制定、用例设计与执行、缺陷的跟踪和问题定位、项目质量风险把控等; 2.针对业务痛点质量风险、线上问题分析,推进业务质量过程持续改进; 3.自动化用例开发维护,性能测试脚本编写及执行,运用工具提高测试效率.

更新于 2025-03-21北京
logo of ke
社招3年以上数据仓库部

工作职责: 1.参与房产交易相关数仓建设,构建层次清晰、数据准确、运行稳定的数仓,包括离线和实时数仓; 2.以业务需求承接为导向,对业务过程、数据使用场景等进行抽象,完成模型的设计、开发工作,沉淀高复用、易使用的数据模型; 3.与数据产品、业务方密切配合,梳理需求要点,一起充分发挥数据价值; 4.参与数仓相关治理工作,包括但不限于表存储的治理、etl任务的优化等; 5.结合大数据行业发展情况,探索新技术或者新的方法在公司内的落地,推动公司数仓开发技术进行升级。

更新于 2025-02-18北京
logo of meituan
社招软硬件服务-Sa

1. 设计与开发基于LLM的智能体系统架构,实现复杂任务规划、工具调用、记忆存储等核心功能 2. 构建多智能体协作框架,探索Agent间的通信协议与协同决策机制 3. 集成外部工具API(搜索引擎/数据库/专业软件),扩展Agent能力边界 4. 优化Agent的实时交互能力,包括对话流畅性、任务分解准确性、异常处理鲁棒性 5. 开发Agent评估体系,设计自动化测试场景与量化评估指标 6. 研究Agent持续学习机制,实现长期记忆存储与经验复用

更新于 2025-04-17北京
logo of meituan
社招4年以上软硬件服务-Sa

1、参与餐饮SaaS数据平台的整体架构建设工作,包括但不限于在线多维分析引擎、数据存储引擎、实时计算引擎、平台数据治理、数据服务、数据质量、数据产品等能力设计与研发等; 2、研究美团餐饮SaaS业务的数据特点,探索带来成本大幅优化的计算、存储方案,构建下一代智能报表系统的底层基础能力与产品通用解决方案; 3、理解数据湖、大数据分析引擎或数据库引擎工作原理,熟悉Parquet、ORC、Arrow等列存储技术方案,理解Doris、ClickHouse、Hive、Presto等至少一种分析引擎的工作原理,熟悉实时计算系统Flink、Storm、Spark至少一种计算框架的工作原理; 4、精通OLAP SQL优化与业务逻辑编排,对BI分析引擎有理解者优先

更新于 2025-04-17北京