Soul APP语音及多模态大模型数据工程师

社招全职2025-06-24地点：上海 | 北京状态：招聘

扫码手机上打开

任职要求

1. 计算机及相关专业全日制硕士及以上，学习能力强，良好的团队协作精神；
2. 具备一定的音频信号处理基础，了解基本的语音或者音频信号处理算法，包括但不限于语音识别、情感分…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 根据算法需求，调研相关数据处理算法，并制定相关处理方案。
2. 深入理解大模型研发流程，与算法工程师紧密配合，持续迭代和优化数据处理链路，提高数据产出的质量和效率

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

语音识别+

Hadoop+

还有更多 •••

登录查看完整学习资料

相关职位

大模型数据工程师(J250328013)

社招技术

1. 构建端到端的网页文本内容提取&分析系统，针对网络数据复杂性，从系统效率和模型效果角度持续优化网页内容提取算法，迭代线上生产标准； 2. 设计预训练数据全局质量优化和治理方案，优化数据采样策略、隐私保护和安全合规策略，提升基座模型训练效率和效果； 3. 深度参与和实现多模态（图文混合、语音等）交错数据处理pipline，通过数据分析和配比实验等手段，提升多模态数据质量和多样性，支撑多模态大模型的数据需求； 4. 跟进大模型数据领域前沿技术（如Data Influence、Curriculum Learning、数据合成、基于大模型的数据预处理等），推动数据驱动的模型性能突破； 5. 深度参与千亿级网页的大规模处理和万亿级token数据生产，通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率；

更新于 2025-06-17北京

通义实验室-多模态大模型数据处理工程师-通义百聆

社招3年以上技术类-开发

1、负责多模态数据数据pipeline建设、数据版本管理、数据处理、数据算子开发集成等工作。 2、开发自动化数据处理工具与脚本，优化数据清洗、标注及质量评估的效率和规模化能力。 3、参与多模态大模型训练数据的构建与管理，参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源，设计有效的数据分布策略，支持模型持续迭代； 4、与算法团队紧密协作，根据模型训练需求定制数据策略，提升训练效果。 5、参与模型推理与部署、模型蒸馏、推理服务服务化，能够支持tagging及服务优化工作。

更新于 2026-01-20北京|杭州

大模型数据工程师-Seed

社招3年以上A00638

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高性能、可扩展、分布式大数据处理平台，通过数据驱动模型生产，支撑字节跳动智能语音相关业务算法生产与高效迭代； 2、与算法工程师密切配合，理解深度学习模型研发流程，负责/参与前沿模型研究中数据解决方案的设计、开发和维护； 3、持续提升平台数据生产效率、易用性、降低算法使用成本，探索业界前沿的多模态数据处理相关技术，设计并实现到数据平台中。

更新于 2023-08-30北京

大模型应用算法工程师（智能客服方向）

社招2年以上核心本地商业-基

1. 负责大模型在客服业务场景下关键能力的应用研发，包括但不限于知识和指令遵循、深度推理、反思和评估等能力的优化和落地。 2. 负责多模态大模型的应用实践，特别是语音文本融合的多模态大模型的应用。 3. 研发和优化智能体的function call、多智能体间协调，使其能够高效、准确地调用内部和外部工具，扩展智能体的应用边界。 4. 深入理解本地生活服务业务场景，抽象业务所需的大模型基础能力深度优化，推动相关技术在实际业务中的应用。 5. 与工程团队紧密合作，推动算法模型的工程化落地，包括模型压缩、加速、部署和监控等环节。 6. 紧密跟踪业界前沿技术，结合业务需求进行预研和技术储备，保持团队的技术竞争力。

更新于 2025-07-21北京|上海