logo of aligenie

智能互联通义实验室-多模态理解算法专家-杭州/北京

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1、计算机科学、人工智能、机器学习或相关领域的硕士或博士学位;
2、在多模态、计算机视觉NLPAIGC、计算机图形学、机器学习等一个或多个领域有较深入的研究;
3、具有出色的分析、解决问题的能力,能深入解决大模型训练、应用存在的问题,有自主探索解决方案的能力者;
4、能够积极创新, 乐于面对挑战, 负责敬业,优秀的团队合作精神,一起探索新技术,推进技术进步。
加分项:
1、具有优秀的基础算法、扎实的…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、探索研究多模态理解、计算机视觉、自然语言处理等前沿技术;
2、参与研发多模态、全模态大模型等下一代人工智能核心技术,探索大规模/超大规模多模态理解与生成统一的基础模型,提升大模型能力;
3、负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化。
包括英文材料
机器学习+
学历+
OpenCV+
NLP+
AIGC+
大模型+
算法+
CVPR+
还有更多 •••
相关职位

logo of tongyi
社招3年以上技术类-开发

1、负责AI平台大数据架构演进以及推进落地:根据不同领域场景大模型落地需求,与算法团队和IT基础设施团队紧密合作,提出大模型训练和优化数据规模、数据类型、数据结构等建议,确保架构有效实施; 2、负责搭建大模型数据平台:支撑大模型数据的存储、预处理(去重、相似度计算、脱敏等)诉求,针对大模型场景、数据类型、数据规模具有高扩展性,以支持大模型数据集持续迭代,实现高质量数据集沉淀,确保数据安全和隐私保护; 3、与算法团队紧密协作,抽象研发诉求,落地为便捷实用的的平台能力,提升整个团队的工作效率和数据处理能力。

更新于 2025-08-14北京|杭州
logo of tongyi
社招3年以上

【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【工作内容】 1、负责原生多模态模型研究和开发,结合多模态能力(支持文本、图像、语音输入)实现复杂指令生成,包括但不限于文生图、图生图、文档生成、可控编辑等核心方向。 2、负责图像生成模型效果优化,探索扩散模型、自回归模型结构和策略优化等核心技术课题。 3、负责人类反馈与强化学习,聚焦于更加精细的RL算法设计,并基于万相用户反馈的RLHF图像生成质量提升。

更新于 2025-12-10北京|杭州
logo of tongyi
社招3年以上

【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 万相Wan将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【职位描述】 1. 负责通义万相多模态生成大模型研发,重点解决生成大模型的训练和推理效率问题。 2. 负责研发各种蒸馏加速算法,包括CFG蒸馏,推理步数蒸馏等。 3. 负责研发各种Training-free推理加速算法,不限于cache、量化、采样优化等策略。 4. 负责研发生成模型的高效训练架构,包括但不限于sparse/linear attention、时空独立建模、超分模块等策略。

更新于 2026-03-26北京|杭州
logo of tongyi
社招5年以上技术类-算法

【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【职位描述】 1. 负责通义万相多模态世界模型的Reward Model构建,包括但不限于:基模型评价维度和benchmark构建,构建强化学习Reward Model和有效RL算法,结合线上用户反馈挖掘模型缺点、持续迭代,实现和人类评测和偏好对齐。 2.负责通义万相多模态世界模型的数据建设,包括但不限于:视频、图像、音频、文本等多模态数据集建设,人类偏好数据pipleline建设,为图像模型、音视频模型、交互式世界模型等基础模型迭代提供有效数据供给。

更新于 2025-11-28北京|杭州