logo of taptap

TapTapTapTap 多模态大模型算法专家

社招全职技术大类地点:上海状态:招聘

任职要求


1. 计算机科学、人工智能、电子信息、数学等相关专业;
2. 深入理解深度学习大模型原理,具备多模态(文本/图像/视频/音频)算法训练经验;
3. 掌握主流多机多卡训练和部署经验,P/D分离技术,包括但不限于Deepspeed、llama factory、SGLang;
5. 具备良好的数学与算法基础,以及创新性问题解决能力。

加分项

- 有游戏相关的多模态内容处理经验(如视频/截图解析、UGC 内容识别、广告素材自动化生成等);
- 有社区平台、短视频平台或广告平台的多模态算法落地经验;
- 参与过开源多模态项目;
- 有跨模态数据准备和处理、RL/DPO/GRPO、对齐训练(Alignment)等实际项目经验;
- 以第一作者身份在 AI 领域顶会/顶刊(NeurIPSICMLCVPRICCV、ACL、EMNLP 等)发表过论文,或在相关方向有等效影响力的成果。

我们提供
- 参与游戏平台多模态大模型的核心研发,影响数千万玩家与数十万游戏开发者;
- 支持学术与业务双驱动,鼓励高水平论文发表与开源贡献;
- 开放、务实、跨学科的研发环境,充分的技术自主权;
- 有竞争力的薪酬、绩效激励与股权激励;
- 完善的福利体系与职业发展支持。

工作职责


1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成;
2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等;
3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求;
4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等);
5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景;
6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地;
7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。
包括英文材料
深度学习+
大模型+
算法+
SGLang+
NeurIPS+
ICML+
CVPR+
ICCV+
相关职位

logo of meituan
社招核心本地商业-基

1.参与视觉大模型、语音大模型研发,探索表征学习和模型架构设计等关键技术; 2.参与跨模态大模型研发,提升模型多模态感知、理解、生成和执行能力; 3.深入调研视觉、语音、文本等模态前沿技术,等提升模型通用智能水平;

更新于 2025-05-09
logo of meituan
社招核心本地商业-基

1.参与视觉大模型、语音大模型研发,探索表征学习和模型架构设计等关键技术; 2.参与跨模态大模型研发,提升模型多模态感知、理解、生成和执行能力; 3.深入调研视觉、语音、文本等模态前沿技术,等提升模型通用智能水平;

更新于 2025-03-14
logo of vivo
社招3年以上研发类

1. 负责多模态大模型在图像与视频理解方向的算法研发、优化与部署; 2. 深入研究并实践多模态大模型的微调技术,以适配特定业务场景; 3. 参与构建和优化大规模多模态数据集; 4. 跟踪最新技术进展,不断优化算法性能(精度、效率、泛化能力); 5. 与团队紧密协作,推动算法在产品中的有效落地;

更新于 2025-08-05
logo of xd
社招技术大类

1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。

更新于 2025-09-28