logo of antgroup

蚂蚁金服蚂蚁集团-多模态交互算法-ai核身

社招全职技术类-算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 计算机科学、人工智能、自然语言处理数据科学机器学习等相关专业。
2. 具备Omni多模态大模型交互、语音语义双工交互、音视频对话等流式大模型交互及应用经验。具备各类眼镜/手机/耳机等泛终端智能硬件等交互算法研发以及虹膜、眼动、手势等各类交互经验。有多模态顶会(NeurIPSCVPR)及人机交互顶会(CHI等)论文发表或国际比赛获奖者优先。
3. 具备独立的算法研发、优化能力,编程开发能力强,熟练掌握Python/C++等编程语言和PyTorch深度学习开发框架。
4. 沟通能力和逻辑表达能力,良好的团队合作精神,有创造性思维,善于解决项目开发或研发中的技术难题。

工作职责


1、应对新的人机交互范式,在GenAI加持的泛智能终端的背景下,研发新一代多模态人机交互算法及新的核身方式。
2、方向一:Omni多模态交互方向,研发多模态实时视频交互的新一代AI核身方案,像人一样多种模态的信息(文本、图像、音频、视频)并以流式方式生成文本和自然语音响应。构建新一代的身份核验算法,打造易用安全便捷、高兼容性和高扩展性的身份核验方式。
3、方向二:语音交互方向,负责AI核身语音语义全双工交互研发和优化,建设面向未来的语音交互核身算法体系;
4、方向三:泛终端与具身交互方向,面向下一代人机交互范式,针对XR端/AI眼镜/AI手机/智能可穿戴设备/AI原生APP/具身智能等,建设语音交互核身、知识核身、虹膜核身等各类新核身能力。
5、方向四:异构数据对齐与理解,设计有效的解决以人为中心的图像、音频、视频、PPG、IMU、文字等多个模态语义对齐和模态融合方案,进一步完成定向感知、信息一致性及推理任务。
6、持续追踪新一代的人机交互范式下,包括各类大模型技术,各类新设备和新形势,追踪身份核验和数字身份方向新研究和风险动向,保持创新的同时将业界 SOTA模型持续优化并落地至线上获得收益。
包括英文材料
NLP+
数据科学+
机器学习+
大模型+
算法+
NeurIPS+
CVPR+
Python+
C+++
PyTorch+
深度学习+
开发框架+
相关职位

logo of mi
校招

1.参与SoC智能调度引擎开发,突破多核异构SoC能效瓶颈,实现设备续航提升20%-30%+; 2.研发基于AI预测模型的动态调度框架,完成CPU/NPU/GPU/DSP混合计算单元毫秒级资源切换与三维能效评估; 3.设计指令级功耗建模工具与自适应DVFS算法,提升典型用户场景10%+的能效提升; 4.深度协同澎湃芯片及小米全栈技术生态,覆盖手机/汽车/机器人等亿级设备,技术成果直通国际顶会转化通道。 【课题名称】 端侧高效整机性能&能效优化技术研究 【课题内容】 小米玄戒芯片能效优化与智能调度体系研究课题背景: 面对手机/汽车/机器人等多场景的极端能效需求,玄戒SoC芯片需突破多核异构的能效瓶颈,通过智能调度引擎与AI驱动的功耗建模技术,构建"芯片+系统+生态"的三维能效优化体系。结合澎湃系列芯片低功耗研发经验(硬件利润率≤5%原则)及AI实验室全栈技术积累,实现续航提升20%-30%+的行业领先能效比,技术成果直通国际顶会转化通道。 挑战: 1. SoC异构计算单元智能调度引擎开发 - 构建基于AI预测模型的动态调度框架,实现CPU/NPU/GPU/DSP混合计算单元的毫秒级资源切换与负载均衡。 - 设计多目标优化算法,在典型用户场景(如多模态交互、自动驾驶感知)中达成计算资源利用率与能效比的协同提升。 2. 指令级功耗建模与自适应能效调控 - 开发面向玄戒O1架构特征的指令级功耗建模工具链,建立微架构-指令-场景的三维能效评估体系。 - 研发自适应DVFS算法与异构缓存协同机制,确保在影像处理、边缘推理等典型场景下实现10%+能效增益。 3. 全栈技术生态协同优化 - 深度整合澎湃芯片家族(C1/G1/S1)的异构调度能力,构建覆盖MIUI系统、车载OS、机器人OS的统一能效优化方案。 - 设计可扩展的调度框架,支持手机/汽车/机器人等设备的差异化能效需求,推动技术方案在IEEE/ACM等顶会的成果转化。

更新于 2025-07-23
logo of 10jqka
校招AI 算法类

负责研发虚拟数字人多模态交互算法,整合语音、文本、表情、肢体动作等多模态信息,实现自然流畅的人机交互; 持续优化多模态交互算法,提升数字人对复杂多模态输入的理解与处理能力,增强交互的精准性和实时性; 探索端到端的数字人多模态交互技术; 跟踪人工智能领域的前沿技术在虚拟数字人项目的应用和落地。

logo of tongyi
社招2年以上技术类-算法

1. 负责通义实验室多模态口语交互的算法研发,通过深入理解全链路多模态交互技术,推进大模型增强的语言交互技术能力建设。 2. 多模态交互: (1)端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。 (2)多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。 (3)多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。 3. 音视频内容理解: (1)转写内容后处理 - 书面化、标点、分段分章节。 (2)音视频分析 - 分角色、语种判别、视频场景划分。 (3)口语内容长篇章理解及生成。 4. 探索多模态口语交互技术落地于实际应用场景,包括但不限于: (1)消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。 (2)内容消费-音视频媒资、会议场景、电销通话多模态理解等。 5. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。

更新于 2025-09-25
logo of bytedance
实习A252546

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动ByteDance Research专注于人工智能领域的前沿技术研究,涵盖了机器翻译、视频理解基础模型、机器人研究、机器学习公平性、量子化学、AI 制药、分子动力学等多技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。 1、面向多模态人机交互,研究多模态智能体、多模态推理规划、流式音视频对话模型等前沿技术,发表高水平论文和申请专利; 2、探索多模态大模型、强化学习算法、大模型Agent在机器人上的创新应用,参与具身智能算法和应用迭代。

更新于 2025-02-10