logo of soul

Soul APP语音及多模态大模型数据工程师

社招全职地点:上海 | 北京状态:招聘

任职要求


1. 计算机及相关专业全日制硕士及以上,学习能力强,良好的团队协作精神;
2. 具备一定的音频信号处理基础,了解基本的语音或者音频信号处理算法,包括但不限于语音识别、情感分…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 根据算法需求,调研相关数据处理算法,并制定相关处理方案。
2. 深入理解大模型研发流程,与算法工程师紧密配合,持续迭代和优化数据处理链路,提高数据产出的质量和效率
包括英文材料
算法+
语音识别+
Hadoop+
还有更多 •••
相关职位

logo of didi
社招技术

1. 构建端到端的网页文本内容提取&分析系统,针对网络数据复杂性,从系统效率和模型效果角度持续优化网页内容提取算法,迭代线上生产标准; 2. 设计预训练数据全局质量优化和治理方案,优化数据采样策略、隐私保护和安全合规策略,提升基座模型训练效率和效果; 3. 深度参与和实现多模态(图文混合、语音等)交错数据处理pipline,通过数据分析和配比实验等手段,提升多模态数据质量和多样性,支撑多模态大模型的数据需求; 4. 跟进大模型数据领域前沿技术(如Data Influence、Curriculum Learning、数据合成、基于大模型的数据预处理等),推动数据驱动的模型性能突破; 5. 深度参与千亿级网页的大规模处理和万亿级token数据生产,通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率;

更新于 2025-06-17北京
logo of tongyi
社招3年以上技术类-开发

1、负责多模态数据数据pipeline建设、数据版本管理、数据处理、数据算子开发集成等工作。 2、开发自动化数据处理工具与脚本,优化数据清洗、标注及质量评估的效率和规模化能力。 3、参与多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 4、与算法团队紧密协作,根据模型训练需求定制数据策略,提升训练效果。 5、参与模型推理与部署、模型蒸馏、推理服务服务化,能够支持tagging及服务优化工作。

更新于 2025-11-14北京|杭州
logo of bytedance
社招3年以上A00638

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高性能、可扩展、分布式大数据处理平台,通过数据驱动模型生产,支撑字节跳动智能语音相关业务算法生产与高效迭代; 2、与算法工程师密切配合,理解深度学习模型研发流程,负责/参与前沿模型研究中数据解决方案的设计、开发和维护; 3、持续提升平台数据生产效率、易用性、降低算法使用成本,探索业界前沿的多模态数据处理相关技术,设计并实现到数据平台中。

更新于 2023-08-30北京
logo of meituan
社招2年以上核心本地商业-基

1. 负责大模型在客服业务场景下关键能力的应用研发,包括但不限于知识和指令遵循、深度推理、反思和评估等能力的优化和落地。 2. 负责多模态大模型的应用实践,特别是语音文本融合的多模态大模型的应用。 3. 研发和优化智能体的function call、多智能体间协调,使其能够高效、准确地调用内部和外部工具,扩展智能体的应用边界。 4. 深入理解本地生活服务业务场景,抽象业务所需的大模型基础能力深度优化,推动相关技术在实际业务中的应用。 5. 与工程团队紧密合作,推动算法模型的工程化落地,包括模型压缩、加速、部署和监控等环节。 6. 紧密跟踪业界前沿技术,结合业务需求进行预研和技术储备,保持团队的技术竞争力。

更新于 2025-07-21北京|上海