logo of tencent

腾讯混元视觉多模态理解与生成大模型算法研究员

社招全职2年以上公共技术地点:深圳状态:招聘

任职要求


1.计算机科学、人工智能、计算机视觉、机器学习或相关领域的硕士或博士学位;
2.具备相关领域研究经验,熟悉主流技术,如在顶级会议或期刊发表过相关论文;
3.熟悉有关领域主流开源工具和框架,有匹配研究需要的工程能力;
4.具备良好的跨…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.作为视觉领域的专家,与其它模态研究者共同参与创新的原生多模态大模型研究,包括创新模型架构、“2D+时间”和“3D+时间”大模型建模等;
2.探索对真实物理世界进行理解和生成、多模态推理及自进化持续学习的大模型;
3.关注学术界和行业最新研究动态,参与国际会议、研讨会,与全球顶级团队交流合作;
4.将研究成果向社区发布或技术转移至内部产品部门。
包括英文材料
OpenCV+
还有更多 •••
相关职位

logo of tencent
社招3年以上公共技术

1.设计具备多模态联合感知、推理、记忆与生成能力的统一大模型架构(视觉/音频/文本); 2.构建支持持续学习、多级记忆、主动探索和自演进的大模型系统; 3.推进 agent化方向,使模型具备自主任务规划、跨模态交互、工具使用和自我优化能力; 4.深度参与通用表征、音视频同频建模、世界模型、稀疏建模等关键模块的设计与实现; 5.跟踪并研究前沿技术趋势,推动创新技术在项目中的应用。

更新于 2025-12-19深圳
logo of tencent
社招2年以上AI技术

1.数据特征算法:负责海量文本&多模态数据(图像,视频,音频,3D)的内容理解(如分类标签体系、embedding表征、Caption生成等),质量检测(低质识别检测、优质美学评价等),去重/聚类分析,数据合成等算法; 2.数据pipeline建设:负责数据采集、筛选清洗、标注与质量评估pipeline的建设。与模型业务团队紧密配合,充分分析挖掘数据资源,建立自动化数据处理流程与机制,支持模型持续迭代; 3.数据实验分析:对模型训练数据进行详细分析,建立科学数据实验机制,识别样本不足、质量问题、配比不均衡等潜在问题,驱动数据优化提升数据覆盖、质量、多样性需求,最终带来大模型生成效果的持续提升。

更新于 2025-10-15深圳
logo of tencent
社招2年以上混元助手-其他技

1.跟踪业界最新的语音生成算法研究,探索下一代语音、音频生成新范式,拓展语音生成边界能力; 2.探索多模态语音大模型的前沿技术,结合文本、语音、视觉等技术提升语音交互体验; 3.负责语音大模型的技术研发工作,推动模型性能提升与创新应用。

更新于 2025-11-17北京
logo of tencent
社招TEG技术

1.多模态驱动引擎开发,通过对文本/语音/视觉等信息,构建虚拟人表情、动作的驱动大模型; 2.设计多模态条件生成框架,实现语音、表情、镜头、肢体动作的联合优化; 3.开发多模态特征同步技术:语音-表情时序对齐、文本语义-镜头运动关联建模。

更新于 2025-05-30深圳