logo of mi

小米omni大模型算法专家

社招全职A228350地点:北京状态:招聘

任职要求


* 计算机、数学、信息、电子工程等相关专业硕士及以上学历;
* 扎实的算法基础,熟悉大模型训练、微调及推理优化,有多模态项目经验者优先;
* 较强的代码能力,熟练掌握PyTorch/…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


* 负责语音及视觉多模态端到端omni大模型算法的研发和调优,探索和打造小爱同学新一代交互架构,提升小米汽车、手机、眼镜及音箱电视设备的用户体验;
* 深入理解业务需求,提出解决方案并推动技术实现;
* 跟踪前沿技术进展,结合业务场景进行技术迭代与优化。
包括英文材料
学历+
算法+
还有更多 •••
相关职位

logo of tongyi
社招5年以上技术类-算法

1. 负责面向AI手机、智能座舱等ToB场景的多模态交互模型研发,包括语音基础模型、视觉-语言模型(VLM)、全模态大模型的后训练(CPT/SFT/RL)与推理优化。 2. 研发基于神经网络、扩散模型或大模型的端侧音频信号处理算法(如语音增强、降噪、去混响),提升复杂声学环境下的语音交互质量。 3. 构建支持自然打断、精准判停、上下文感知的实时双工交互模型,实现低延迟、高鲁棒性的流式对话体验。 4. 针对端侧资源约束,开展模型压缩、量化、蒸馏及高效部署,确保算法在DSP/NPU等嵌入式平台稳定运行。 5. 与系统、产品团队紧密协作,推动算法从原型验证到大规模商用落地。

更新于 2025-11-22北京|上海
logo of tongyi
社招3年以上技术类-算法

1. 负责Qwen-Omni多语言能力研发,解决多语言语音翻译、实时同传等技术问题。 2. 大模型算法前沿技术追踪、探索,建设技术影响力。 3. 研发基于多模态大模型的多语言/跨语言任务处理新范式,构建基于大模型的多语言应用。 4. 负责在电商、教育、广告、游戏等多语言业务场景的应用落地。

更新于 2025-11-29北京|杭州
logo of didi
社招技术

1.负责多模态大模型全链路研发与优化,涵盖 SFT、RL 训练等关键环节,探索图文、视频、音频等多模态数据的质量评估与清洗方法、优化模型训练策略及结构设计、提升模型泛化与推理能力。 2.结合业务场景需求,主导多模态大模型落地项目,涵盖内容理解与结构化、质量甄别、智能生成等任务,设计算法方案并推动上线,提升业务效率与用户体验。 3.跟踪多模态大模型前沿技术,探索其在安全治理场景的适配性和落地,驱动技术迭代。 4.承担团队管理与人才培养,提升团队技术影响力。

更新于 2025-11-06北京
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的coding agent/digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)通过Large-scale Pre-training 和 Large-scaleRL来提升Code Reasoning能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务; 2. 负责Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过Scaling海量数字世界数据结合大规模合成数据,来提升Computer-Use Agent的Grouding能力。 (2)通过Long Horizon的方式进行强化训练,结合可扩展的多模态环境反馈来提升CU Agent的Reasoning的能力。

更新于 2025-08-22北京|杭州|上海