小米大模型算法工程师（多模态方向）实习生

实习兼职2025-07-07地点：北京状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历或在读，人工智能、计算机科学、电子、信息工程、机器人等专业，有C++/python开发经验；
2. 熟练掌握至少一种深度学习框架，如Tensorflow，PyTorch等；
3. 对深度学习有深刻认识，熟悉各种神经网络及背后数学原理；
4. 对大模型有设计应用经验者优先；
5. 对多模态融合算法有实…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 参与预训练AI大模型的研发，微调和部署，包括功能实现，性能优化，和部署应用等；
2. 负责以视觉大模型/语言大模型为核心的多模态感知与开放词汇识别，负责问题的梳理定义、数据的搜集整理、模型的训练部署等工作；
3. 探索自动驾驶领域的AI大模型方案以及和传统方案的结合，并撰写相关论文，专利。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

C+++

Python+

深度学习+

TensorFlow+

还有更多 •••

登录查看完整学习资料

相关职位

感知算法工程师(J240806005)

社招技术

公司介绍滴滴于 2016 年组建自动驾驶技术研发部门，致力于打造世界领先的 L4 级自动驾驶技术，通过科技让出行更安全、更高效。我们相信，将自动驾驶技术部署在共享出行车队中，将创造最大的社会价值。依托滴滴在出行领域的先进技术、海量数据、丰富经验和完整的出行平台生态，我们正在打造并运营世界领先的自动驾驶 Robotaxi 车队，推动自动驾驶在城市复杂交通场景中的规模化落地。职位描述作为感知团队的一员，你将与国内外顶尖人才一起，研究和开发自动驾驶领域的前沿算法，直接赋能 L4 Robotaxi 的大规模部署。你将面向真实城市道路场景中的多样化挑战，利用多模态传感器（LiDAR、Camera、Radar 等）设计、开发并优化感知算法，解决物体识别、障碍物检测、场景理解、意图预测与大模型赋能等核心问题。在这里，你将有机会：与中美两地的优秀工程师和科学家合作，参与世界级的技术竞争；深入研究并推动最前沿的学术成果在产业中的落地；在全球最大出行平台之一的业务场景中，实现科研成果的规模化应用。主要方向与职责：你将在以下方向中选定一个或多个方向深入负责，并承担从研发到落地、从算法到系统的端到端职责：（一）物体识别与跟踪设计并实现基于 LiDAR / Camera / Radar 的多模态检测模型，识别车辆、行人、自行车、静态障碍物、交通标志等提升精度、召回率与抗扰性（抗遮挡、夜间、恶劣天气、长尾类别）（二）通用障碍物识别识别未知类别 /未训练类别的障碍物基于异常检测 /开放类别识别的算法研究与工程实现在非结构化环境（施工区域、道路损坏、落物等）中提升鲁棒性（三）场景和意图理解语义分割、实例分割、道路 /车道/交通标志/交通灯等结构物识别场景理解，例如施工区域识别、可通行区域识别等意图理解，例如行人动作识别、起步意图识别等交互和事件识别，例如多方交互、交通规则冲突、非规范驾驶行为等（四）感知大模型 /多模态探索或应用预训练多模态大模型，将视觉、语言、地图/文本信息融合以增强感知能力零样本 / 少样本 / 跨域泛化的策略研发将大模型成果迁移到真实车队感知系统中，提升复杂场景下的鲁棒性（五）模型评估、验证构建完整的评估管道，包括离线评估 + 真实道路 + 模拟环境测试，支持回归检测与性能监控指标体系设计 (Precision, Recall, IoU, latency, false positives rate 等)

更新于 2026-01-06北京

AIGC算法工程师-广告业务-筋斗云人才计划（北京/上海/深圳）

社招A259978A

团队介绍：广告业务原为商业产品与技术部门，为抖音集团的商业变现提供广告产品与技术，负责端到端大型广告系统建设，覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵，践行"激发生意新可能"理念，致力于让营销更省心、更高效、更美好，推动商业的可持续增长，让不分体量、地域的企业及个体，都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里，你将投身建设面向未来的数字营销能力，接触到全球先进的商业产品架构、模型和算法，在互联网广告行业始终创新。课题介绍： 1、核心技术架构： 1）下一代广告技术栈：模型算法层：搭建基于强化学习的智能出价与流量预估系统，攻克深层转化场景下的数据稀疏、多源异构数据融合（延迟数据/埋点噪声/跨平台行为）等行业难题；系统工程层：构建支持基于长序列特征的实时预估框架，研发支持动态创意组合的自动化投放引擎； AIGC融合层：建立文/图/视频多模态生成技术中台，实现从IP素材生成到智能投放的全链路闭环； 2）行业首创的AIGC解决方案：正在搭建全球领先的"小说→漫剧"智能生产线，攻克三大技术堡垒：多模态叙事引擎：研发支持角色一致性保持（Character-aware Diffusion）、分镜自动生成（Storyboard LLM）、动态运镜控制（Camera ControlNet）的复合型生成框架；工业化工作流：构建支持分布式渲染、多版本AB测试、合规性审核的智能生产管线，实现日均千级素材产能；投放增效系统：开发生成质量量化评估模型（QAGAN），建立素材生成-投放效果的反哺优化机制； 2、岗位挑战：你将主导：构建支持沿模型的混合推理框架，优化多卡并行下的生成效率；设计跨模态对齐算法，提升文字指令到视觉元素的可控生成精度；研发基于用户行为分析的智能素材变异系统，实现CTR提升30%+的个性化内容生成；打造从内容生产到实时竞价的全自动化广告引擎； 3、我们期待这样的开拓者：精通Diffusion Models技术栈，具有LoRA/ControlNet/T2I-Adapter等微调框架的实战调优经验；熟悉多模态大模型（如VideoPoet、Sora等视频生成技术原理），具备跨模态表征学习研究背景；拥有广告算法背景者优先，熟悉CVR预估、智能出价等核心模块与生成式AI的结合点；出色的工程化能力，主导过至少一个完整AIGC项目的端到端落地（从模型训练到服务部署）。

更新于 2025-05-28北京

多模态大模型交互工程师-Data 语音

社招A98852

1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地，解决落地过程中的前沿问题，持续优化落地效果； 2、探索前沿的多模态技术，专注语音多模态大模型的前沿技术和算法效果，追求和探索业界最前沿算法，包括但不限于语言、音乐、语音、音频的生成与理解等； 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2025-02-17北京

语音识别算法工程师-Seed

社招X1570

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与研发多模态模型等下一代人工智能核心技术； 2、关注和推进技术在业务场景中的广泛应用，包括但不限于语言、音乐、语音、音频的生成与理解等； 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2022-06-30北京