logo of tencent

腾讯多模态大模型算法研究员-深圳

社招全职3年以上CSIG技术地点:上海状态:招聘

任职要求


1.教育背景:计算机视觉/机器学习/强化学习/人工智能等相关专业硕士以上学历;
2.专业技能:熟悉多模态大模型算法和架构,如BLIP2、LLaVA、MiniGPT等,熟练掌握PyTorch等深度学习框架,具有扎实的编程基础,熟悉Python、C++等编程语言;
3.实战经验:具有良…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.算法研究与开发:负责多模态大模型的前沿算法研究与开发,包括但不限于多模态预训练、跨模态对齐、多模态理解与生成、具身智能等任务,研发业界领先的多模态大模型;
2.模型训练与优化:参与多模态大模型的训练与优化,探索高效的训练策略和模型架构,提升模型性能;
3.技术落地与应用:推动多模态大模型在实际业务中的应用,解决业务中的技术难题,提升业务效率和用户体验;
4.学术研究与前沿探索:跟踪多模态领域的最新研究进展,参与学术会议和期刊论文的发表,提升团队在领域内的学术影响力。
包括英文材料
OpenCV+
机器学习+
强化学习+
学历+
大模型+
算法+
PyTorch+
还有更多 •••
相关职位

logo of vivo
校招

我们是影像规划预研部,隶属于vivo影像大团队,主要负责vivo手机Camera模块中长期创新技术规划与预研。 我们以图像处理、计算机视觉、AI技术为依托,在拍照、视频、3D、XR等方向打造具有行业竞争力的影像技术和产品,为消费者提供极致的影像体验。 1. 负责AI眼镜中多模态大模型的算法预研,构建AI眼镜视频数据下的个人AI个人助理,实现长视频/多图下的端侧高效多模态问答交互,持续迭代优化核心算法模型及整体技术框架,支撑前沿技术产业落地; 2. 与产品团队紧密合作,将最新的多模态大模型技术融入公司产品和服务中,显著提升用户体验和满意度; 3. 不断优化现有算法,提高效果、性能和稳定性,确保技术在各种设备和平台上的高效运行,发布研究成果,积极参与行业会议,与学术界和工业界建立并维护良好的合作与交流关系。

更新于 2025-06-14深圳|上海
logo of tencent
社招2年以上Aivatar_

1.负责构建和优化面向动作生成的多模态大模型架构,探索文本、视觉信号、3D 动作序列等模态的深度融合与对齐; 2.负责研究多模态场景下,高维、连续3D动作数据的Tokenization 方法; 3.负责探索多模态动作大模型 Scaling Law,包括数据量、参数量级、计算量等,通过模型规模化提升生成能力; 4.负责探索多模态对齐大模型,支持语音、文本、动作等多模态对齐,未来进一步支持多模态实时输出; 5.负责探索任意角色动画生成,可对任意角色与骨架均能生成自然的动画; 6.负责探索、研发动捕精修大模型,可对动捕过程各类噪声自动去除,达到精修品质; 7.负责探索环境感知的交互动画生成,支持角色与物体、场景、其他角色的交互,确保生成交互动作的合理性。

更新于 2026-04-08深圳
logo of meituan
校招核心本地商业-基

视觉方向 1.探索大规模/超大规模多模态视觉大模型,并进行极致系统优化,数据建设、指令微调、偏好对齐、模型优化。 2.探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。 3.探索多模态推理模型(Reasoning)架构、提升多模态在学科、通用视觉任务上的思考和推理能力。 4.探索视觉GUI Agent模型构建,提升GUI场景下的理解、规划和决策能力,进而提升人机交互的性能。 5.探索具身智能大模型的构建,提升机器人在物理场景中的模仿学习和强化学习算法,提升具身智能的多模态处理能力以及与开放世界的物理交互能力。 6.探索多模态视觉大模型后训练方法,探索指令微调、强化学习等后训练策略,提升模型的性能。 语音方向 1.语音表征学习:探索同时适用于理解和生成任务、兼顾学习效率和效果的语音表征。 2.模型结构与预训练方法:研究可大规模扩展的模型结构,高效学习语音和文本知识,提升模型的理解和生成能力。 3.音频理解:在语音(Speech)之外,探索更广泛的音频(Audio,如音乐、环境声)理解能力。 4.音频生成:探索高质量音频生成能力,具备强表现力、多风格、多语种、多音色等。 5.后训练方法:探索基于 SFT 和 RL 的后训练策略,进一步提升模型能力上限,。 6.智能交互技术研究,探索高效的智能交互技术,增强系统交互过程中的智能能力、拟人度、自然度和主动性。 全模态融合 大语言模型最近取得的突破,加速了多模态大模型的发展。全模态大模型(Omni-MLLM)通过融入如视觉、语音等模态,拓展了多模态大语言模型的能力,有助于更全面、多维度地理解与生成各种模态,提供更强的智能以及更智能的交互模式。 1.多模态表征对齐:研究在统一模型架构下提取并共享视觉、语音、语言等模态的特征;基于对比学习、自监督学习,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2.多模态统一模型架构:探索统一全模态大模型架构,研究高效全模态预训练技术,使之能够高效处理文本、图像、视频和语音数据,并生成涵盖文本、音频和图像等多种模态的输出 3.多模态知识迁移与能力增强:研究在不同模态间的能力迁移,激发模型在跨模态任务中的涌现能力。

更新于 2025-05-23北京|上海|深圳
logo of sensetime
社招算法研究

1. 负责大语言模型、多模态大模型(文本、图像、语音等)的核心算法研发,包括模型 SFT微调、强化学习后训练、推理优化等关键环节,持续提升模型的效果、效率与稳定性。 2. 跟踪国内外大模型领域的前沿技术(如 Transformer 架构改进、多模态融合技术等),并结合业务场景进行技术调研与创新落地。 3. 针对具体业务需求(如智能客服、内容生成、代码辅助等),设计训练数据处理与清洗、大模型微调、强化学习后训练方案,解决实际业务问题。 4. 通用智能体框架设计与开发,智能体虚拟环境搭建,智能体基座模型的SFT后训练和强化学习后训练。 5. 与工程开发、产品设计等团队紧密协作,推动大模型技术从研发到产品化的全流程落地,输出技术文档与方案说明。

更新于 2025-09-24北京|深圳