logo of mi

小米顶尖应届-全模态理解和推理大模型算法工程师-大模型

校招全职地点:北京状态:招聘

任职要求


1. 博士学历,计算机、人工智能、机器学习、电子信息、自动化、数学等相关专业,多模态大模型计算机视觉、语音理解等相关方向;
2. 具备丰富的多模态大模型、或视觉理解、或语音理解经验,对多模态大模型、视觉理解、语音理解、全模态理解等有深入理解;
3. 具备优秀的编程能力,熟练掌握PyTorch等至少一门深度学习框架,熟练掌握PythonC++等至少一门编程语…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 研发端到端全模态理解和推理大模型核心技术,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流;
2. 研发视觉理解和推理大模型核心技术,在图像理解,视频理解,视觉推理能力增强(关系推理、因果推理、常识推理),GUI屏幕感知和推理、端到端图像翻译等方向创新突破,达到业内一流;
3. 优化语音识别大模型的上下文感知能力,通过送入交互历史信息提升语音识别准确率;优化语音识别大模型的热词感知能力,通过送入相关热词提升语音识别准确率;优化语音多模态理解大模型的SpeechEncoder,提升语音理解大模型的语音理解能力和声音理解能力,包括语音内容、情感、性别、声音事件、音乐风格等;在用户跟智能体对话的过程中,检测用户的表达完整性,从而加快系统响应速度且不带来更多的误截断;在语音对话模型中,检测用户交互的对象,从而提升打断的有效性和系统交互的响应速度;
4. 端到端全模态理解和推理、视觉理解、语音理解等,建立比较广泛的业界影响力,论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等;
5. 端到端全模态理解和推理、视觉理解、语音理解等,落地在小米核心业务场景,提升核心产品竞争力和用户智能体验,包括手机(OS/小爱)、汽车、生态链等。

【课题名称】
端到端全模态理解和推理大模型研究与应用
【课题内容】
1. 研究端到端全模态理解和推理大模型的核心技术,产出突破性成果,在小米核心业务场景落地;输入文本、图像、视频、语音等模态,输出文本、语音等模态;探索全模态信息感知能力;探索全模态混合推理思维链;探索全模态思维强化;
2. 研究视觉理解和推理的核心技术和应用,包括图像理解与推理、长视频理解与推理、屏幕感知和端到端图像翻译等;
3. 研究语音理解大模型的感知关键技术,包括有效利用场景、上下文、个性化信息更好的进行音频内容的转写以及副语言信息的提取,用户表述完整性检测等,提升流式交互系统的响应速度和理解准确性等。
包括英文材料
学历+
机器学习+
大模型+
OpenCV+
PyTorch+
深度学习+
Python+
C+++
还有更多 •••
相关职位

logo of mi
校招

1. 研发端到端全模态理解和推理大模型,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流; 2. 端到端全模态理解和推理大模型,建立比较广泛的业界影响力,论文引用数100+、主流算法竞赛/排行榜TOP1、开源Star 1000+等。 【课题名称】端到端全模态理解和推理模型研究与应用 【课题内容】研究端到端全模态理解和推理大模型的核心技术和应用,包括文本、图像、视频、语音等模态输入,文本和语音等模态输出。

更新于 2025-11-13北京
logo of alibaba
实习淘天集团2026

T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 你的挑战: 攻克LLM全链路训练难题:主导大模型训练,优化模型Scaling Law,结合应用需求突破分布式性能瓶颈,基于RL增强模型推理能力,打造电商领域最懂用户需求的超级大脑(含多模态VLM研发)。 为什么选择淘天? 1.坐拥电商领域最大规模场景:每天处理数亿次用户交互,覆盖搜索/推荐/广告/客服/营销全链路,你将直接面对全球最复杂的电商需求场景。 2.定义未来购物标准:你研发的模型将服务数亿消费者,结合大语言和多模态模型能力满足用户偏好,影响海量商家经营决策。 3.顶级科研配置:超大规模GPU集群支持大规模参数模型训练,自研分布式框架实现训练推理效率大幅提升,顶级会议发表,前沿技术成果即时输血。 加入我们,你将获得: 1.与NLP/多模态领域顶尖团队共创,解锁大模型在商品理解、智能创作、消费决策、购物对话等场景的无限可能。 2.弹性化的技术路线选择权,既可在大模型基础技术方面突破能力上限,也可深入应用层打造现象级AI产品。 3.打通产学研用全链路:支持技术成果转化顶会论文和专利+百万级ai native用户产品。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。

更新于 2025-05-07北京|杭州
logo of mi
校招

1. 构建行业有影响力的各类智能体和研究对应学术前沿问题,训练业界效果领先的大模型智能体模型,并通过发表论文、开源、竞赛等,打造学术影响力; 2. 打造业界一流的通用大模型智能体解决方案,并落地小米核心业务。 【课题名称】 大模型智能体研究与应用 【课题内容】 构建行业有影响力的各类智能体和研究对应学术前沿问题,包括但不限于: 1. 研究通用任务AI Agent核心技术,包括但不限于规划、工具调用、多智能体等,并构建和开源业界有影响力的AI Agent模型和解决方案; 2. 研究GUI Agent相关核心技术,包括但不限于SFT、离线强化学习、在线强化学习等,并训练和开源业界有影响力的GUI Agent模型; 3. 研究强化学习算法全流程核心技术,包括但不限于算法优化,奖励函数设计、环境构建等,并基于强化学习构建和开源业界有影响力的推理大语言模型、GUI Agent模型、deep search模型等; 4. 研究RAGRAG全流程核心技术,包括但不限于音-视-文全模态理解与生成、端侧RAG等,并推动相关领域技术突破和业务落地。

更新于 2025-06-25北京
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 通义千问(Qwen)全模态统一理解生成前沿技术研究,团队在多个方向上进行探索(具体如下罗列),若你对以下一个或者多个课题感兴趣均欢迎投递: 1. 模型架构与学习机制探索 (1)预训练与后训练技术:持续提升模型的理解力、推理力与泛化能力。 (2)探索下一代学习范式,如自监督学习、动态训练策略、知识蒸馏等。 2. 多模态与多智能体感知交互系统 (1)打造 Omni 基座模型,实现文本、语音、视觉等多模态一体化理解与生成,推动世界模型的发展。 (2)开发超智能的 Coding Agent,打通语言与代码之间的桥梁,连接 AI 与数字世界。 (3)构建下一代 AI 交互系统,在 GUI Agent、视频理解等前沿场景,探索 AI 自主执行、扩展、进化的可能性。 3. 数据建设与性能优化 (1)数据工程:设计高效的数据处理管线,持续提升自然语言、代码、多模态等数据质量与规模。 (2)推理优化:探索模型高并发服务下,算法及系统框架侧技术创新与优化,包括但不限于训练推理协同优化、模型推理新范式。 4. 评测与安全体系 (1)构建下一代大模型评估系统,覆盖推理、生成、可控性等多个维度。 (2)关注模型内生安全,追求 AI 对人类有益且可控,参与对抗攻击检测、伦理约束建模等工作。

更新于 2025-08-18北京|杭州|上海