京东端到端多模态交互算法工程师
任职要求
1.硕士及以上学历,具有扎实的编程功底,良好的设计能力和编程基础、对设计模式有一定的了解; 2.对C++,数据结构,多线程编程和网络编程(TCP/WebSocket),操作系统有一定的了解和掌握; 3.熟悉跨平台Native开发的流程和工具:如CMake、Gitlab CI、JNI、OC/Swift等; 4.有移动端音频开发相关经验者优先,如熟悉OpenSL/Audio、AudioQueue、Jack等音频API; 5.熟悉语音降噪模型、vad、打断、语音唤醒系统等语音交互类模型优先; 6.有语音交互相关产品研发经验优先,如智能家居,车载,机器人等; 7.了解如下技能栈更佳:Web Assembly、Web Audio、信号处理、Python、Kubernetes、机器学习等。 符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。
工作职责
1.负责跨平台(iOS/Android/Linux)、跨端(服务端+客户端)音视频交互SDK设计、开发与优化; 2.负责和各产品线合作,接入成熟的音视频交互相关处理算法,提升音视频交互在产品中的表现效果; 3.参与开发支持音视频交互相关业务落地和技术研发; 4.持续学习新编程技术、工业界学术界语音系统进展,精炼业务逻辑。
1.负责跨平台(iOS/Android/Linux)、跨端(服务端+客户端)音视频交互SDK设计、开发与优化; 2.负责和各产品线合作,接入成熟的音视频交互相关处理算法,提升音视频交互在产品中的表现效果; 3.参与开发支持音视频交互相关业务落地和技术研发; 4.持续学习新编程技术、工业界学术界语音系统进展,精炼业务逻辑。
1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化落地效果; 2、探索前沿的多模态技术,专注语音多模态大模型的前沿技术和算法效果,追求和探索业界最前沿算法,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

负责研发虚拟数字人多模态交互算法,整合语音、文本、表情、肢体动作等多模态信息,实现自然流畅的人机交互; 持续优化多模态交互算法,提升数字人对复杂多模态输入的理解与处理能力,增强交互的精准性和实时性; 探索端到端的数字人多模态交互技术; 跟踪人工智能领域的前沿技术在虚拟数字人项目的应用和落地。
1. 探索研究具身智能领域的多模态大模型、世界模型、生成式模型、AIGC等人工智能前沿技术; 2.探索大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、RLHF、模型优化;提升数据合成、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3. 探索突破包括而不限于多模态大模型、端到端VLA模型、视觉COT与Agent在内的多模态模型、世界模型; 4. 通过预训练或SFT,使用生成式模型技术能力对现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。