logo of 10jqka

同花顺数字人算法工程师(多模态交互)

校招全职AI 算法类地点:杭州状态:招聘

任职要求


硕士及以上学历计算机视觉、图形学、机器人或人工智能相关专业;
精通 PythonC++ 等编程语言,熟悉主流深度学习框架(如 PyTorchTensorFlow 等);
对大模型的底层原理和应用有较为深入的理解;有实际应用经验者优先;
在2D/3D数字人、人机交互、机器人决策控制算法等方向有深入研究或项目落地经验者优先; 
在国际会议或期刊(包括但不限于SIGRAPH、CHI、ICRA、IROS 、CVPRICCVECCV等)上发表过论文者优先。

工作职责


负责研发虚拟数字人多模态交互算法,整合语音、文本、表情、肢体动作等多模态信息,实现自然流畅的人机交互;
持续优化多模态交互算法,提升数字人对复杂多模态输入的理解与处理能力,增强交互的精准性和实时性;
探索端到端的数字人多模态交互技术;
跟踪人工智能领域的前沿技术在虚拟数字人项目的应用和落地。
包括英文材料
学历+
OpenCV+
Python+
C+++
深度学习+
PyTorch+
TensorFlow+
大模型+
算法+
CVPR+
ICCV+
ECCV+
相关职位

logo of alibaba
实习淘天集团2026

如果你,期望参与淘天集团语音多模态大模型技术研发,推动数字人AI智能对话、语音自然交互等技术在淘宝Vision和手机淘宝等亿级用户场景的产品化落地; 如果你,期望突破语音模态与语言模型的融合边界,构建新一代Speech-to-Speech多模态基座模型,持续跟踪大模型领域国际前沿技术,通过产学研合作打造行业领先的对话交互系统; 如果你,期待与顶尖算法团队并肩作战,在开放创新的技术氛围中与自驱力强、专业过硬、追求极致的技术伙伴共同开拓多模态交互新范式; 那还在等待什么,赶紧加入我们吧!

更新于 2025-05-07
logo of meituan
实习核心本地商业-业

【课题说明】 聚焦多模态数字人核心技术,以直播为应用场景,旨在突破其在真实感、智能交互、情感表达及多模态信息处理上的瓶颈。研发能自主执行复杂运营任务、展现丰富情感与高表现力,并与用户进行深度多模态内容互动的下一代数字人,革新直播行业运营模式与用户体验。 【建议研究方向】 1.智能运营Agent:研究数字人作为智能Agent,在直播前(策划、脚本、货盘)、中(场控、问答、促单)、后(复盘、再创)全流程承担运营职能。重点攻克基于多模态数据的智能决策、任务自动化及人机协同,提升直播运营效能。 2.高表现力数字人生成驱动:探索高真实感、个性化数字人形象(外观、声音、风格)的快速生成与定制。重点研究大模型驱动的、与语音同步且富含细腻情感的表情、口型、动作的实时驱动,增强直播感染力。 3.多模态内容生成和交互:研究理解用户多模态输入(文、语、图、视频)并进行深度互动。探索数字人自主生成动态多模态内容,丰富直播呈现,提升用户参与感。

更新于 2025-05-27
logo of tongyi
校招通义2026届秋

近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。语音是人人交流和人机交互中最自然、最便捷的模态,对语音AI的研究和应用已经成为人工智能领域的重要组成部分。在阿里巴巴,有关技术在流媒体播放、直播互动、智能客服、会议访谈、教育教学等场景,以及作为人机交互界面在AIoT、机器人、数字人等场景有广泛应用。 我们致力于通用人工智能(AGI)方向的前沿探索与产业落地创新。如果你对生成式AI、通用人工智能(AGI/ASI)前沿探索、多模态建模与智能交互系统有浓厚兴趣,并渴望深入参与下一代多模态通用模型的研发与演进,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。 工作职责 1. 负责语音生成/语音识别/语音合成/声纹/语种/情感等方向的算法研究和开发。 2. 负责语音信号处理的相关算法研究和开发,包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等。 3. 负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发。 4. 语音统一多模态大模型:研究下一代多模态通用大模型技术范式,实现文本、语音、视觉模态的联合建模。

更新于 2025-08-07
logo of tongyi
校招通义2026届秋

团队介绍: 近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。 如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。 岗位职责具体职责包括但不限于: 1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。

更新于 2025-08-07