阿里巴巴业务技术-数字人平台技术解决方案-淘宝直播
任职要求
- 技术整合能力:能将TTS、LLM、形象驱动等技术模块抽象为标准化服务
- 产品设计能力:擅长系统抽象和复杂系统解耦,具备复杂系统的产品设计经验
- 开发者思维:有技术产品化经验,理解开发者生态需求
- 效能提升导向:通过设计工具链,提升数字人内容生产效率
工作职责
1. 主导淘宝直播数字人技术平台建设,打造支撑淘宝直播生态的数字人底层能力平台,包括但不限于: - 跨业务场景的虚拟人能力标准化输出 - 引入多模态内容生成工具链体系,降低素材制作门槛 2. 构建平台级技术解决方案: - 设计数字人资产管理与调度平台 - 设计面向开发者的技术开放平台 - 建设直播数字人效果评估与数据监测体系 - 制定数字人录制采集SOP 3. 技术生态协同: - 推动AI算法能力与工程化落地的有效实践 - 制定虚拟人技术接入规范与标准
1.理解AI业务战略诉求,深入理解C端场景业务,主导关键系统的设计和优化,保障该系统的核心功能和性能满足业务要求; 2.不断拓展领域知识,运用专业技术攻坚解决领域难题,如数字人、TTS、视频/直播等; 3.研发效率提升,识别和规划可复用能力,沉淀技术解决方案提升研发效率; 4.把握行业的前瞻技术发展趋势,基于业务场景,结合新技术、新形态,推动技术创新性产品落地。
1.理解AI业务战略诉求,深入理解C端场景业务,主导关键系统的设计和优化,保障该系统的核心功能和性能满足业务要求; 2.不断拓展领域知识,运用专业技术攻坚解决领域难题,如数字人、TTS、视频/直播等; 3.研发效率提升,识别和规划可复用能力,沉淀技术解决方案提升研发效率; 4.把握行业的前瞻技术发展趋势,基于业务场景,结合新技术、新形态,推动技术创新性产品落地。
研究方向一:多模态Agent 1.基于多模态数据的智能决策、任务自动化及人机协同,提升直播运营效率与效果 2.多Agent框架设计与系统研发 研究方向二:高表现力数字人生成驱动 1.语音精准唇形驱动。通过AIGC、人脸驱动等能力,形成人形交互的行业最优产品化方案 2.人体驱动技术。针对AI直播业务场景,适配最优的人体肢体驱动技术解决方案 3.端到端人形生成能力。打造从语音文本输入到完整数字人输出的跨模态生成架构,通过联合训练实现语音驱动表情、文本驱动肢体语言、情感驱动微动作的多维度协同控制 研究方向三:智能对话与多模态内容生成交互技术 1.多模态智能对话技术。基于业务数据,利用RAG、跨模态检索、大模型后训练等方式,打造高效的智能对话能力 2.多模态内容理解及生成技术。基于业务数据,利用多模态大模型、AIGC技术构建多模态交互的基础数据
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:直播团队负责为抖音集团提供直播服务。团队负责直播平台技术和直播业务研发,打造灵活稳定的直播服务平台,为用户提优质直播体验,支持电商、本地生活、游戏、节目、多人互动等不同类型的业务场景。直播业务发展迅猛,处于行业头部地位,业务发展空间巨大。现在加入我们,和优秀的人一起做有挑战的事,你的技术与创意将影响亿级用户,激发创意和丰富生活。 1、参与抖音直播助手项目建设,面向主播开播的全流程,打造全方位、自迭代的智能直播专家,探索直播领域垂类大模型的建设工作; 2、参与研发提效助手项目建设,打造面向软件研发全生命周期的提效助手,完成研发知识资产的建设和模型内化; 3、参与新业务的探索研究,结合对业务场景的充分理解,寻找最佳解决方案。