恺英网络模型研究负责人

社招全职2年以上技术类2026-05-18地点：深圳状态：招聘

扫码手机上打开

任职要求

1、CS / EE / ML / CV 硕⼠或博⼠学位
2、2 年以上视频⽣成 / 扩散模型 / 多模态相关经验
3、⾄少在以下三项中有亲⼿项⽬经验：
- 视频⽣成模型微调或继续预训练
- 扩散模型 / Transformer ⽣成式架构（DiT、MM-DiT、视频 Transformer）
- DPO / RLHF / 偏好学习
- 训练数据管线（标注、清洗、对⻬）
4、⾄少⼀次将研究模型推向⽣产部署或⼤规模演示的完整经验
5、⾄少 2 – 5 ⼈项⽬领导经验
6、中⽂…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 技术战略：基础模型选型与论证；训练管线架构设计；6 / 12 / 18 个⽉研究路线图
2. 团队搭建
3. 训练基础设施：数据管线（与产品团队协同）、算⼒（与财务和投资⽅协同）、分布式训练栈、模型服务栈
4. 产品集成：与 CTO 协同模型能⼒落地节奏；与总编协同编辑团队所需可控性；闭合⽣产数据 →训练数据反馈循环
5. 研究领导：研究议程；研究员培养；代表公司参加学术与⾏业会议

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-安全域多模态大模型架构和效率优化

实习研究型实习生

研究领域：人工智能项目简介：课题1：音视频细粒度理解与token压缩，负责人：默宸，HC数：1个随着大模型时代的到来，图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息，还能保留关键语义特征，从而显著提升图像的细粒度理解能力，同时满足高时效性任务的需求。基于此，我们希望能够开展基于query牵引与信息密度的Token压缩算法研究，针对视频内容的特点，设计高效的压缩与理解方案，以推动视频审核算法的性能优化与实际落地。课题2：基于规则动态化Token交互的高效视频理解与推理模型研究，负责人：夜兰，HC数：1个本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型，以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取，结合视觉Token压缩技术，显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制，实现规则与视觉信息的高效联合提取，同时结合多任务学习框架，支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度，适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务，为实际应用场景提供高效、细粒度的视频理解解决方案。课题3：视频开集信息检测和定位，负责人：默宸，HC数：1个随着视频内容生态的爆发式增长，传统闭集检测方法在面对业务快速迭代需求时面临显著挑战，难以泛化至开放场景下的新概念检测，且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架，通过多模态语义对齐与时空注意力机制，实现对任意指定内容的视频检索（包含时空定位）。该技术将推动视频审核从定制化开发向通用化检测转型。课题4：隐式深度推理与动态步骤压缩的协同优化架构研究，负责人：侯猫/亘郁，HC数：2个现有大语言模型在复杂推理任务中面临根本性效率瓶颈：基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长，KV缓存存储开销线性增加。传统显式推理方法（如Chain-of-Thought）通过生成冗长中间步骤提升精度，却加剧了计算资源消耗；而隐式推理虽能压缩计算步骤，但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发，不仅实现动态剪枝冗余中间思考步骤，同时通过隐状态迭代实现深度计算扩展，从而达到在保持/提升推理精度的同时，将复杂任务的计算负载降低5，突破现有模型在长文本生成与多跳推理中的效率天花板。

上海|杭州

多模态算法工程师（J82286）

社招ACG

-负责落地LLM在内容理解场景中的应用，负责文本内容理解与审核场景端到端效果优化与提升 -重点研究以小尺寸大语言模型相关的技术，包括但不限于数据建设、指令微调、模型优化、模型蒸馏等 -提升数据构建合成、模型推理等能力；构建大小模型融合的推理系统，提升模型在理解与审核场景中的效果 -持续探索跟进学术与业界前沿进展，探索包括但不限于CoT、RAG、强化学习微调等能力并落地

更新于 2025-10-11北京

淘宝闪购-大模型高级算法专家-搜推生成式

社招3年以上技术类-算法

1. 负责淘宝闪购搜索推荐算法的基础模型研发工作，包括店铺和商品信息流推荐、搜索结果页排序等，覆盖千万级DAU； 2. 基于业务问题，设计并实现推荐全链路算法模型，包括召回、粗排、精排、重排及混排等模块，搜索全链路算法模型，包括Query理解、召回、精排、重排等模块，持续迭代提升业务效果； 3. 跟踪国内外搜索推荐领域的最新进展，结合业务特点进行技术创新，推动算法模型的优化和升级； 4. 协同业务进行跨团队合作，与产品、运营等部门紧密合作，确保算法模型的有效落地和业务目标的达成。

更新于 2026-06-05上海

高德-AIGC多模态生成&理解算法工程师/专家-北京

社招3年以上技术类-算法

团队介绍：高德地图机器学习研发部是公司AI核心技术引擎，聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地，支撑亿级用户产品，同时长期投入前沿探索，在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文，多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源，鼓励创新突破，诚邀你与顶尖算法专家并肩，共同定义AI的未来！如果你渴望挑战多模态与生成式AI的技术巅峰，在视频、图像、大模型的交叉领域实现突破，欢迎加入我们！团队的github页面是：https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发，见证技术直接赋能业务； • 与学术大牛和工业界专家共事，持续提升技术视野； • 顶配算力资源+开放创新氛围，支持前沿探索与顶会论文发表。具体职责包括但不限于： 1. 视频生成：负责视频生成技术的前沿技术的研究，对AIGC的diffusion和auto-regressive技术有深入了解，在T2I/AIGCT2V/I2V上面有一定的研究，图文对齐，长视频生成等有一定的研究，做好视频生成在高德业务（广告，POI详情页等）中的进行落地。 2. 视频理解：能够使用和优化多模态大模型对用户上传的视频进行质量理解，标签，densecaption，视频summary等生成，作用到视频的搜索，广告，推荐等业务的落地。 3. 世界模型：参与世界模型的构建，能够使用最新的视频生成技术，3D技术等构建符合人类物理规律的统一的世界模型，在高德的业务进行落地。 4. 紧跟技术前沿和技术沉淀，形成顶会论文和专利。

更新于 2026-01-23北京