钉钉悟空事业部-RTC 媒体服务-研发工程师
任职要求
语言能力(精通其一) ● C++: 精通 C++,熟悉内存管理、多线程、性能优化,有高性能网络服务经验 ● Go: 精通 Go,熟悉 Goroutine/Channel,有高并发服务经验 ● Java: 精通 Java,了解 JVM,熟悉内存管理、多线程、性能优化 ● Python: 熟练使用 Python 进行脚本开发和自动化运维 核心技术能力 1. 大型分布式系统 ● 具备千台以上集群架构设计和开发经验 ● 深入理解一致性协议、分布式事务、服务发现、分布式锁 ● 熟悉高可用架构:多活/灾备、熔断降级、限流等 SLA 保障机制 ● 有百万级 QPS 以上性能调优实战经验 ● 深入理解 Linux:进程/线程调度、内存管理、IO 模型(epoll、io_uring) ● 精通 TCP/IP…
工作职责
1. 负责 RTC 媒体服务的设计、开发和运维,构建高并发、低延迟的音视频传输系统 2. 设计和实现媒体处理核心模块(编解码、混流、转码、录制等) 3. 负责分布式媒体集群的资源调度、负载均衡和弹性扩缩容 4. 持续优化系统性能和用户体验,参与技术评审推动创新

1. 负责 RTC 媒体服务的设计、开发和运维,构建高并发、低延迟的音视频传输系统 2. 设计和实现媒体处理核心模块(编解码、混流、转码、录制等) 3. 负责分布式媒体集群的资源调度、负载均衡和弹性扩缩容 4. 持续优化系统性能和用户体验,参与技术评审推动创新
语音是人机交互中最自然、最便捷的模态。随着大模型时代的到来,语音 AI 正在从单一的任务处理向多模态、高自然度的“数字员工”演进。 在我们这里,RTC 不仅仅是传输管道,而是数字人的神经中枢。我们已经打通了 WebRTC 全链路,并实现了打断、轮次检测等核心能力。现在的目标是攻克 极致交互延迟、拟人化情感合成、以及具备 RAG 与工具调用能力的语音 Agent。加入我们,你将亲手打造一个“听得清、反应快、有记忆、能办事”的数字灵魂。我们倡导 AI-First 的开发哲学,鼓励利用 AI Coding 与 Vibe Coding 的新范式,快速将创意转化为亿万级用户的交互体验。 【岗位职责】 1. 全链路算法研发与优化: ○ 负责 ASR/LLM/TTS 全链路的协同优化。通过流式算法(Streaming)与端到端优化,挑战 RTC 场景下人机对答的物理延迟极限。 2. 语音 Agent 大脑构建: ○ RAG 与知识增强: 集成检索增强生成(RAG)技术,提升数字人在垂直领域(如医疗预约、智能客服)的专业度。 ○ 实时任务编排: 研发高可靠的 Tool Use(工具调用) 逻辑,使数字人能实时操作后台系统,并处理调用过程中的长延迟等待与交互反馈。 ○ 记忆管理: 建立长短期记忆系统,确保数字人在多轮复杂对话中保持语境一致性。 3. 专项技术突破: ○ 高鲁棒性交互: 研发基于深度学习的智能 VAD 与“语义打断”逻辑,解决强噪声及复杂环境下的起停点识别痛点。 ○ 拟人化表达: 微调 TTS 模型(如情感自适应、口语化重写),提升音色的情感表现力与韵律感。 4. 模型工程化落地: 推动算法在 GPU 环境下的高性能部署,优化并发场景下的状态机管理、显存调度及异常重试机制。 5. 前沿预研: 跟踪并实践 Speech-to-Speech (S2S) 原生端到端交互,探索大模型驱动的语音多模态融合方案;跟踪并实践两段式(ASR+多模态/多模态+TTS)低延迟交互。
1、团队愿景:在大模型进入深水区的今天,真正拉开差距的,不再只是模型结构,而是数据的质量、成本与评测方法。 我们对标 Scale AI,正在建设主权模型时代的 AI 数据基础设施:以最低的总体成本,持续为模型训练与迭代提供最高质量的数据、数据配方与评测体系。 在这里,你将参与决定用什么样的数据能真正塑造模型能力,把分散、复杂、真实的业务数据,转化为可 规模、可验证、可复用的模型竞争力,参与定义 AI 时代最底层、也最关键的基础设施。 2、 主导多模态模型训练数据的生产项目:作为算法与标注资源的“连接器”,将抽象的模型需求转化为可执行的标注规则和验收标准。管理内外部标注团队(包括外包/众包资源),把控项目进度与成本,确保大规模数据交付的准时率与合格率。 3、流程设计与工程优化:设计 SFT、 RLHF 等数据流转机制,搭建高效的 Workflow。协同多方团队,优化标注效率和质量。 4、负责构建从数据寻源、抓取、到复杂异构数据解析的全流程系统,解决多模态数据的清洗与结构化难题。 5、利用模型生成数据等方式,构建自动化数据扩充流水线,降低对人工标注的依赖,突破数据规模瓶颈。 6、建立数据质量评估体系,系统性分析标注数据的质量分布特征,提升标注效率。