通义通义实验室-高级算法专家(人类偏好对齐方向)-通义万相
任职要求
1. 计算机科学、人工智能、机器学习能等领域的博士/硕士毕业生。 2. 对多模态生成方向具有技术热情、良好的技术洞察力和优秀的业务分析能力,能应对复杂的业务算法需求。 3. 掌握机器学习和深度学习基础知识,有较强的代码能力,掌握SQL、Python等常用开发语言和环境。 4. 踏实心细…
工作职责
【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【职位描述】 1. 负责通义万相多模态世界模型的Reward Model构建,包括但不限于:基模型评价维度和benchmark构建,构建强化学习Reward Model和有效RL算法,结合线上用户反馈挖掘模型缺点、持续迭代,实现和人类评测和偏好对齐。 2.负责通义万相多模态世界模型的数据建设,包括但不限于:视频、图像、音频、文本等多模态数据集建设,人类偏好数据pipleline建设,为图像模型、音视频模型、交互式世界模型等基础模型迭代提供有效数据供给。
作为大模型评测研发工程师,将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发:从评测数据集设计、智能化自动化评估方法探索研究、指标实现,到平台化落地,精准衡量模型能力边界,持续驱动模型语料优化与模型迭代 通用 Benchmark 研发 • 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架; • 研究并实现更贴合业务发展的评测方法与指标,构建高效、可扩展、可复现、可解释的评测引擎 业务领域 Benchmark 构建与评测 • 深入跨境电商各个业务领域,构建领域Benchmark,真实反馈模型业务表现 • 设计场景化评估方案,如RAG、Agent、COT、 In-Context Learning等,并形成端到端评测能力; 评测方法研究 • 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术 • 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议,高效复现SOTA方法,形成可比对可参考的评估系统
我们致力于打造银行信贷领域的新一代“智能决策大脑”。我们以行业与产业研究为锚点,以数据智能为引擎,深度融合资深信贷专家的经验与海量异构数据洞察,构建面向信贷全生命周期的领域专属决策大模型。 1.主导信贷大模型的后训练体系:通过有监督微调(SFT)、奖励模型(RM)训练、人类反馈强化学习(RLHF)、直接偏好优化(DPO)等领域领先技术,让模型不仅“会回答”,更能“可解释、答得准、判得稳、符合专家直觉”,实现与信贷业务目标的深度对齐。 2.构建垂直领域智能Agent系统的能力:能主导信贷场景下Intelligent Agent的核心框架设计,融合感知、规划、执行与持续学习机制,并通过知识图谱、RAG、NL2SQL等技术打通非结构化知识、结构化数据与自然语言交互,实现从行业洞察、风险画像到决策支持的端到端自动化。 3.打造高质量领域数据飞轮:从零构建面向信贷场景的指令与偏好数据集,设计数据配比、清洗、增强与合成策略,持续提升数据效率与泛化能力——因为你知道,好模型的背后,是更聪明的数据。 4.建立科学严谨的评估体系:构建覆盖准确性、逻辑一致性、风险敏感度、幻觉控制等多维度的自动化评测 pipeline,用数据驱动模型迭代,确保每一个版本都比上一个更可靠、更可用。 5.站在AI+金融的最前沿:紧密跟踪全球大模型的最新进展(如新型偏好学习、多Agent协作等),快速将学术突破转化为业务生产力,解决真实世界中复杂、高 stakes 的信贷决策挑战。同时将领域化的研究转化为高质量的顶会论文,形成持续学术影响力。
【职位描述】: 1、负责AI产品开发与应用:围绕外贸商品构建B类商品模型、AI发品、负向治理等能力; 2、技术能力:电商领域多模态大模型,包括从监督微调(SFT)到强化学习人类反馈(RLHF)的全链路技术构建,以及智能Agent系统,涵盖但不限于检索增强生成(RAG)系统、Agent系统和工作流推理等。 3、推动跨境电商AI创新业务的落地实施,包括高效的商品AI大模型、AI发品和诊断Agent等解决方案。 4、开展前沿LLM技术的探索,持续迭代和优化自研模型能力,以支持AI原生产品的实施。