蚂蚁金服研究型实习生-多模态大模型轻量化
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
工作职责
研究领域: 人工智能 项目简介: 面对多模态大模型训练部署成本昂贵、参数量庞大等问题,通过设计高效的网络结构、创新的压缩量化策略、简化的注意力机制等方案,缩减多模态大模型的计算量,并且让其更有效率地适用于下层应用,在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构,从而提高部署后的吞吐量并降低时延。
1.多模态大模型应用研发:基于多模态大模型(MLLM)强大的世界知识与推理能力,研发复杂场景下的主体识别算法,精准定位视频/图文中的核心主体(如开箱商品、主推款),解决遮挡、多实例干扰等难题。 2.细粒度语义对齐与表征学习: 构建统一的多模态表征空间,负责封面、视频、商品图文之间的细粒度语义对齐,提升跨模态检索与粗筛的召回率。 3.判别模型设计: 设计具备“Thinking with Images”能力的判别式大模型,实现对“挂错品”、“封面党”等高阶语义偏差的精细化验证,并探索模型的可解释性(输出决策依据)。 4.模型蒸馏与落地: 参与大模型到轻量化小模型的知识蒸馏(Model Distillation)工作,设计表征-判别联合蒸馏框架,在保障算法精度的同时满足线上业务的高吞吐与低延时需求。 5.前沿技术探索: 跟踪CV、NLP及多模态领域的SOTA技术,结合业务场景进行创新,有机会将成果发表在CVPR、ICCV、ECCV等顶级会议上。
1. 探索基于大模型的语音双工交互系统关键技术,包括流式语音理解、增量文本生成、打断检测与恢复等; 2. 参与端侧轻量化语音大模型的研发,开展模型压缩(剪枝/量化/蒸馏)、硬件感知优化与高效推理引擎实现; 3. 参与设计并实现端云任务动态协同调度机制,基于网络状态、用户意图、隐私敏感度等多维上下文,智能分配计算负载,实现性能与隐私的最优平衡; 4. 参与构建支持跨端云一致性的多轮对话状态管理框架,确保长上下文语义连贯性与用户记忆的无缝衔接; 5. 参与建立面向真实场景的端云融合语音系统综合评估体系,从延迟、功耗、准确率、鲁棒性到隐私合规性等维度开展系统级测试与优化。
我们正在寻找对通用具身智能前沿研究充满热情的实习生,参与构建下一代多任务、多场景统一的具身基础大模型。本项目聚焦三大核心挑战:跨任务泛化的通用能力建模、仿真到现实(Sim2Real)的迁移鸿沟弥合、以及大规模高质量具身交互数据的自动化构建与评测。 你将深度参与以下关键方向: 1. 研发支持视觉-语言-动作(VLA)统一建模的具身基础大模型,实现零样本/少样本下的跨任务感知、理解与决策; 2. 构建高保真机器人仿真平台与世界模型(World Modeling)渲染系统,提升仿真环境的真实性与动态交互能力,缩小 Sim2Real 差距; 3. 构建大规模具身交互数据集,融合真实采集与基于世界模型的自动化生成,并配套建立标准化、可扩展的自动化评测体系; 4. 设计轻量化推理算法与部署框架,将大模型高效运行于真实机器人硬件(如 Franka、UR、Stretch 等),完成闭环验证与迭代优化。 优秀成果可形成专利/论文,或发布开源社区
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。