字节跳动语音大模型数据运营专家(TTS方向)-DMC
社招全职3年以上A197094地点:北京状态:招聘
任职要求
1、本科及以上学历,3年以上互联网产品或运营经验,计算机、计算语言学相关专业优先; 2、具备出色的PE能力,能够独立设计Prompt策略形成工作流,提高数据生产的质量和效率; 3、具备良好的数据分析和沟通能力,能够从复杂数据中提炼关键信息为决策提供依据,并能推动落地; 4、对大模型、数据领域有深刻的理解和认知,具备大模型应用落地相关工作经验,有Agent搭建经验优先。
工作职责
1、搭建具有通用性和可拓展性的TTS标注框架,与算法团队对齐标准、撰写相关培训方案,根据模型迭代方向提供高质量数据; 2、负责大语言模型训练过程中各阶段数据生产,对自动化链路搭建、数据质量评估及外部资源管理负责,确保大语言模型训练数据有效; 3、能通过PE、代码完成数据预处理、分析和清洗,按照训练需求进行标注、分析和验证调优,提升模型效果; 4、与产品算法团队协同,积极探索自动化数据生产、数据合成等方法,提高数据标注效率,持续跟踪大模型技术进展,持续探索智能高效的数据生产模式。
包括英文材料
学历+
Prompt+
https://cloud.google.com/vertex-ai/generative-ai/docs/learn/prompts/introduction-prompt-design
A prompt is a natural language request submitted to a language model to receive a response back.
https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/prompt-engineering
These techniques aren't recommended for reasoning models like gpt-5 and o-series models.
https://www.youtube.com/watch?v=LWiMwhDZ9as
Learn and master the fundamentals of Prompt Engineering and LLMs with this 5-HOUR Prompt Engineering Crash Course!
数据分析+
[英文] Data Analyst Roadmap
https://roadmap.sh/data-analyst
Step by step guide to becoming an Data Analyst in 2025
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
相关职位
社招IEG技术
1.负责面向游戏领域语音大模型的构建,包括预训练、指令微调、训练和推理加速、模型评测等; 2.探索大语音模型技术在游戏场景中的应用,为游戏创作、运营、交互体验等各环节提供更智能化的模型能力; 3.优化现有线上算法,包括对话TTS,千人千面语音,多语种TTS,音乐生成,歌声合成等方向研发工作,结合实际业务需求与数据,研发高效可靠的语音合成解决方案; 4.跟踪探索大语音模型的前沿技术与应用落地。
更新于 2025-06-05
社招1年以上A196008
1、主导推进ASR、TTS面向各企业垂直领域的能力评测,包括构建评测集,确保评测效果,输出评测报告等; 2、负责ToB音色运营,面向企业客户提供或定制优质音色,与算法、产品研发共同协作,推动语音大模型效果优化; 3、负责持续监控和跟进语音大模型上线后效果,收集整理客户反馈,给出合理优化解决方案; 4、制定语音ToB产品运营及合作流程机制,协调项目各个角色高效工作。
更新于 2025-06-05
社招3年以上A156693
1、搭建具有通用性和可拓展性的NLP标注框架,与算法团队对齐标准、撰写相关培训方案,根据模型迭代方向提供高质量数据; 2、负责大语言模型训练过程中各阶段数据生产,对自动化链路搭建、数据质量评估及外部资源管理负责,确保大语言模型训练数据有效; 3、能通过PE、代码完成数据预处理、分析和清洗,按照训练需求进行标注、分析和验证调优,提升模型效果; 4、与产品算法团队协同,积极探索自动化数据生产、数据合成等方法,提高数据标注效率,持续跟踪大模型技术进展,持续探索智能高效的数据生产模式。
更新于 2025-05-20