小米视觉多模态算法工程师实习生

实习兼职2025-09-10地点：北京状态：招聘

扫码手机上打开

任职要求

1.硕士及以上学历，计算机、人工智能、机器学习、电子信息、自动化、数学等相关专业，多模态大模型、计算机视觉等相关方向；
2.具备一定的多模态算法或计算机视觉实践经验，对计算机视觉和深度学习算法有深入理解；
3.具备优秀的编程能力，熟练掌握PyTorch等至少一门深度学习框架，熟练掌握Python或C++等至少一门编程语言；
4.…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 深入调研多模态大模型、计算机视觉、大模型推理以及强化学习等方向的前沿技术，并结合产品对算法进行优化，使相关产品效果达到业界领先水平；
2. 将多模态大模型落地到小米各个产品，结合产品需求，参与算法的设计、开发、验证、集成、优化和维护，解决算法产品化过程中的各种技术问题，确保达到上线要求；
3. 参与相关领域学术研究，产出具有业界行业影响力的科研成果；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

大模型+

OpenCV+

还有更多 •••

登录查看完整学习资料

相关职位

感知算法工程师(J240806005)

社招技术

公司介绍滴滴于 2016 年组建自动驾驶技术研发部门，致力于打造世界领先的 L4 级自动驾驶技术，通过科技让出行更安全、更高效。我们相信，将自动驾驶技术部署在共享出行车队中，将创造最大的社会价值。依托滴滴在出行领域的先进技术、海量数据、丰富经验和完整的出行平台生态，我们正在打造并运营世界领先的自动驾驶 Robotaxi 车队，推动自动驾驶在城市复杂交通场景中的规模化落地。职位描述作为感知团队的一员，你将与国内外顶尖人才一起，研究和开发自动驾驶领域的前沿算法，直接赋能 L4 Robotaxi 的大规模部署。你将面向真实城市道路场景中的多样化挑战，利用多模态传感器（LiDAR、Camera、Radar 等）设计、开发并优化感知算法，解决物体识别、障碍物检测、场景理解、意图预测与大模型赋能等核心问题。在这里，你将有机会：与中美两地的优秀工程师和科学家合作，参与世界级的技术竞争；深入研究并推动最前沿的学术成果在产业中的落地；在全球最大出行平台之一的业务场景中，实现科研成果的规模化应用。主要方向与职责：你将在以下方向中选定一个或多个方向深入负责，并承担从研发到落地、从算法到系统的端到端职责：（一）物体识别与跟踪设计并实现基于 LiDAR / Camera / Radar 的多模态检测模型，识别车辆、行人、自行车、静态障碍物、交通标志等提升精度、召回率与抗扰性（抗遮挡、夜间、恶劣天气、长尾类别）（二）通用障碍物识别识别未知类别 /未训练类别的障碍物基于异常检测 /开放类别识别的算法研究与工程实现在非结构化环境（施工区域、道路损坏、落物等）中提升鲁棒性（三）场景和意图理解语义分割、实例分割、道路 /车道/交通标志/交通灯等结构物识别场景理解，例如施工区域识别、可通行区域识别等意图理解，例如行人动作识别、起步意图识别等交互和事件识别，例如多方交互、交通规则冲突、非规范驾驶行为等（四）感知大模型 /多模态探索或应用预训练多模态大模型，将视觉、语言、地图/文本信息融合以增强感知能力零样本 / 少样本 / 跨域泛化的策略研发将大模型成果迁移到真实车队感知系统中，提升复杂场景下的鲁棒性（五）模型评估、验证构建完整的评估管道，包括离线评估 + 真实道路 + 模拟环境测试，支持回归检测与性能监控指标体系设计 (Precision, Recall, IoU, latency, false positives rate 等)

更新于 2026-01-06北京

数字人研发工程师（J78151）

社招TPG

-负责计算机视觉和深度学习算法的开发与性能提升，研究的问题包括但不限于虚拟人-基于DIffusion model的2D/3D虚拟人的表情/肢体驱动、生成模型-多模态的图像/视频生成与编辑 -行业内相关的实习、高校实验室、研究所研究、以及工作经验 -有与图形学、计算机视觉、机器学习等研究相关的开源项目的贡献背景 -在国际顶尖会议或期刊（CVPR、ICCV、ECCV、3DV、 SIGGRAPH、TOG、TPAMI）发表相关论文 -主动性强，在具有挑战性的研究问题上不断深耕并达到业界顶尖水平

更新于 2024-08-09北京|上海|深圳

高级算法工程师(J250507006)

社招2年以上技术

1）主要业务是车载场景交通安全和人身安全相关算法开发，工作包括不局限于：图像分类、目标检测跟踪、深度距离估计、视频理解等 2）与团队成员友好合作，按时完成研发工作并进行算法部署落地 3）研究与分享大模型前沿技术，落地视觉多模态理解和图像生成大模型

更新于 2025-08-29北京

AIGC算法工程师-广告业务-筋斗云人才计划（北京/上海/深圳）

社招A259978A

团队介绍：广告业务原为商业产品与技术部门，为抖音集团的商业变现提供广告产品与技术，负责端到端大型广告系统建设，覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵，践行"激发生意新可能"理念，致力于让营销更省心、更高效、更美好，推动商业的可持续增长，让不分体量、地域的企业及个体，都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里，你将投身建设面向未来的数字营销能力，接触到全球先进的商业产品架构、模型和算法，在互联网广告行业始终创新。课题介绍： 1、核心技术架构： 1）下一代广告技术栈：模型算法层：搭建基于强化学习的智能出价与流量预估系统，攻克深层转化场景下的数据稀疏、多源异构数据融合（延迟数据/埋点噪声/跨平台行为）等行业难题；系统工程层：构建支持基于长序列特征的实时预估框架，研发支持动态创意组合的自动化投放引擎； AIGC融合层：建立文/图/视频多模态生成技术中台，实现从IP素材生成到智能投放的全链路闭环； 2）行业首创的AIGC解决方案：正在搭建全球领先的"小说→漫剧"智能生产线，攻克三大技术堡垒：多模态叙事引擎：研发支持角色一致性保持（Character-aware Diffusion）、分镜自动生成（Storyboard LLM）、动态运镜控制（Camera ControlNet）的复合型生成框架；工业化工作流：构建支持分布式渲染、多版本AB测试、合规性审核的智能生产管线，实现日均千级素材产能；投放增效系统：开发生成质量量化评估模型（QAGAN），建立素材生成-投放效果的反哺优化机制； 2、岗位挑战：你将主导：构建支持沿模型的混合推理框架，优化多卡并行下的生成效率；设计跨模态对齐算法，提升文字指令到视觉元素的可控生成精度；研发基于用户行为分析的智能素材变异系统，实现CTR提升30%+的个性化内容生成；打造从内容生产到实时竞价的全自动化广告引擎； 3、我们期待这样的开拓者：精通Diffusion Models技术栈，具有LoRA/ControlNet/T2I-Adapter等微调框架的实战调优经验；熟悉多模态大模型（如VideoPoet、Sora等视频生成技术原理），具备跨模态表征学习研究背景；拥有广告算法背景者优先，熟悉CVR预估、智能出价等核心模块与生成式AI的结合点；出色的工程化能力，主导过至少一个完整AIGC项目的端到端落地（从模型训练到服务部署）。

更新于 2025-05-28北京