小米多模态大模型算法工程师实习生

实习兼职2026-01-27地点：北京状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历，计算机、机器学习、计算机视觉等相关专业优先
2. 熟悉Linux以及常用深度学习框架PyTorch/Tensorflow…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责工业质检业务中的多模态、计算机视觉等算法工作，实现业务指标的增长
2. 探索前沿多模态技术研究，结合业务需求，积极技术创新

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

OpenCV+

Linux+

还有更多 •••

登录查看完整学习资料

相关职位

感知算法工程师(J240806005)

社招技术

公司介绍滴滴于 2016 年组建自动驾驶技术研发部门，致力于打造世界领先的 L4 级自动驾驶技术，通过科技让出行更安全、更高效。我们相信，将自动驾驶技术部署在共享出行车队中，将创造最大的社会价值。依托滴滴在出行领域的先进技术、海量数据、丰富经验和完整的出行平台生态，我们正在打造并运营世界领先的自动驾驶 Robotaxi 车队，推动自动驾驶在城市复杂交通场景中的规模化落地。职位描述作为感知团队的一员，你将与国内外顶尖人才一起，研究和开发自动驾驶领域的前沿算法，直接赋能 L4 Robotaxi 的大规模部署。你将面向真实城市道路场景中的多样化挑战，利用多模态传感器（LiDAR、Camera、Radar 等）设计、开发并优化感知算法，解决物体识别、障碍物检测、场景理解、意图预测与大模型赋能等核心问题。在这里，你将有机会：与中美两地的优秀工程师和科学家合作，参与世界级的技术竞争；深入研究并推动最前沿的学术成果在产业中的落地；在全球最大出行平台之一的业务场景中，实现科研成果的规模化应用。主要方向与职责：你将在以下方向中选定一个或多个方向深入负责，并承担从研发到落地、从算法到系统的端到端职责：（一）物体识别与跟踪设计并实现基于 LiDAR / Camera / Radar 的多模态检测模型，识别车辆、行人、自行车、静态障碍物、交通标志等提升精度、召回率与抗扰性（抗遮挡、夜间、恶劣天气、长尾类别）（二）通用障碍物识别识别未知类别 /未训练类别的障碍物基于异常检测 /开放类别识别的算法研究与工程实现在非结构化环境（施工区域、道路损坏、落物等）中提升鲁棒性（三）场景和意图理解语义分割、实例分割、道路 /车道/交通标志/交通灯等结构物识别场景理解，例如施工区域识别、可通行区域识别等意图理解，例如行人动作识别、起步意图识别等交互和事件识别，例如多方交互、交通规则冲突、非规范驾驶行为等（四）感知大模型 /多模态探索或应用预训练多模态大模型，将视觉、语言、地图/文本信息融合以增强感知能力零样本 / 少样本 / 跨域泛化的策略研发将大模型成果迁移到真实车队感知系统中，提升复杂场景下的鲁棒性（五）模型评估、验证构建完整的评估管道，包括离线评估 + 真实道路 + 模拟环境测试，支持回归检测与性能监控指标体系设计 (Precision, Recall, IoU, latency, false positives rate 等)

更新于 2026-01-06北京

蚂蚁集团-大模型算法工程师/专家-杭州/北京【平台工程】

社招技术类-算法

1、研发面向云计算底座海量数据的大模型，包括但不限于代码大模型、全模态、大规模图学习等领域相关的大模型的应用算法研发； 2、参与大模型应用研发全流程的工作，包括但不限于模型算法设计、代码开发、训练、部署优化、调试、评测；技术创新如专利、论文的撰写；外部技术影响力交流等； 3、推动大模型在DevOps提效、内外部智能体业务应用、爆款AI原生应用、安全和技术风险防控等场景的业务落地；

更新于 2025-07-14北京|杭州

高级算法工程师(J250507006)

社招2年以上技术

1）主要业务是车载场景交通安全和人身安全相关算法开发，工作包括不局限于：图像分类、目标检测跟踪、深度距离估计、视频理解等 2）与团队成员友好合作，按时完成研发工作并进行算法部署落地 3）研究与分享大模型前沿技术，落地视觉多模态理解和图像生成大模型

更新于 2025-08-29北京

AIGC算法工程师-广告业务-筋斗云人才计划（北京/上海/深圳）

社招A259978A

团队介绍：广告业务原为商业产品与技术部门，为抖音集团的商业变现提供广告产品与技术，负责端到端大型广告系统建设，覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵，践行"激发生意新可能"理念，致力于让营销更省心、更高效、更美好，推动商业的可持续增长，让不分体量、地域的企业及个体，都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里，你将投身建设面向未来的数字营销能力，接触到全球先进的商业产品架构、模型和算法，在互联网广告行业始终创新。课题介绍： 1、核心技术架构： 1）下一代广告技术栈：模型算法层：搭建基于强化学习的智能出价与流量预估系统，攻克深层转化场景下的数据稀疏、多源异构数据融合（延迟数据/埋点噪声/跨平台行为）等行业难题；系统工程层：构建支持基于长序列特征的实时预估框架，研发支持动态创意组合的自动化投放引擎； AIGC融合层：建立文/图/视频多模态生成技术中台，实现从IP素材生成到智能投放的全链路闭环； 2）行业首创的AIGC解决方案：正在搭建全球领先的"小说→漫剧"智能生产线，攻克三大技术堡垒：多模态叙事引擎：研发支持角色一致性保持（Character-aware Diffusion）、分镜自动生成（Storyboard LLM）、动态运镜控制（Camera ControlNet）的复合型生成框架；工业化工作流：构建支持分布式渲染、多版本AB测试、合规性审核的智能生产管线，实现日均千级素材产能；投放增效系统：开发生成质量量化评估模型（QAGAN），建立素材生成-投放效果的反哺优化机制； 2、岗位挑战：你将主导：构建支持沿模型的混合推理框架，优化多卡并行下的生成效率；设计跨模态对齐算法，提升文字指令到视觉元素的可控生成精度；研发基于用户行为分析的智能素材变异系统，实现CTR提升30%+的个性化内容生成；打造从内容生产到实时竞价的全自动化广告引擎； 3、我们期待这样的开拓者：精通Diffusion Models技术栈，具有LoRA/ControlNet/T2I-Adapter等微调框架的实战调优经验；熟悉多模态大模型（如VideoPoet、Sora等视频生成技术原理），具备跨模态表征学习研究背景；拥有广告算法背景者优先，熟悉CVR预估、智能出价等核心模块与生成式AI的结合点；出色的工程化能力，主导过至少一个完整AIGC项目的端到端落地（从模型训练到服务部署）。

更新于 2025-05-28北京