TapTapTapTap 多模态大模型算法专家
社招全职技术大类地点:上海状态:招聘
任职要求
1. 计算机科学、人工智能、电子信息、数学等相关专业; 2. 深入理解深度学习与大模型原理,具备多模态(文本/图像/视频/音频)算法训练经验; 3. 掌握主流多机多卡训练和部署经验,P/D分离技术,包括但不限于Deepspeed、llama factory、SGLang; 5. 具备良好的数学与算法基础,以及创新性问题解决能力。 加分项 - 有游戏相关的多模态内容处理经验(如视频/截图解析、UGC 内容识别、广告素材自动化生成等); - 有社区平台、短视频平台或广告平台的多模态算法落地经验; - 参与过开源多模态项目; - 有跨模态数据准备和处理、RL/DPO/GRPO、对齐训练(Alignment)等实际项目经验; - 以第一作者身份在 AI 领域顶会/顶刊(NeurIPS、ICML、CVPR、ICCV、ACL、EMNLP 等)发表过论文,或在相关方向有等效影响力的成果。 我们提供 - 参与游戏平台多模态大模型的核心研发,影响数千万玩家与数十万游戏开发者; - 支持学术与业务双驱动,鼓励高水平论文发表与开源贡献; - 开放、务实、跨学科的研发环境,充分的技术自主权; - 有竞争力的薪酬、绩效激励与股权激励; - 完善的福利体系与职业发展支持。
工作职责
1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。
包括英文材料
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
SGLang+
[英文] Install SGLang
https://docs.sglang.ai/get_started/install.html
SGLang is a fast serving framework for large language models and vision language models.
https://github.com/sgl-project/sgl-learning-materials
NeurIPS+
https://neurips.cc/
ICML+
https://icml.cc/
CVPR+
https://cvpr.thecvf.com/
ICCV+
https://iccv.thecvf.com/
ICCV is the premier international computer vision event comprising the main conference and several co-located workshops and tutorials.
相关职位
社招核心本地商业-基
1.参与视觉大模型、语音大模型研发,探索表征学习和模型架构设计等关键技术; 2.参与跨模态大模型研发,提升模型多模态感知、理解、生成和执行能力; 3.深入调研视觉、语音、文本等模态前沿技术,等提升模型通用智能水平;
更新于 2025-05-09
社招核心本地商业-基
1.参与视觉大模型、语音大模型研发,探索表征学习和模型架构设计等关键技术; 2.参与跨模态大模型研发,提升模型多模态感知、理解、生成和执行能力; 3.深入调研视觉、语音、文本等模态前沿技术,等提升模型通用智能水平;
更新于 2025-03-14
社招3年以上研发类
1. 负责多模态大模型在图像与视频理解方向的算法研发、优化与部署; 2. 深入研究并实践多模态大模型的微调技术,以适配特定业务场景; 3. 参与构建和优化大规模多模态数据集; 4. 跟踪最新技术进展,不断优化算法性能(精度、效率、泛化能力); 5. 与团队紧密协作,推动算法在产品中的有效落地;
更新于 2025-08-05
社招技术大类
1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。
更新于 2025-09-28