小米大模型推理增强研究员
任职要求
1. 学历要求:本硕博均可 2. AI能力:会使用Python,对大模型感兴趣 3. 研究能力:具备优秀的数学推理、数据分析能力…
工作职责
专注于提升大模型在科学、艺术等领域推理能力的研究员,推动大模型在复杂科学问题上的表现。 1. 优化模型推理能力:研究并优化大模型在人文社会科学、艺术、文学、心理学、哲学、数学、物理、生物/医学、化学、农学、材料学等领域的推理能力。 2. 开发科学基准测试:构建科学推理任务与评测方法,衡量模型在复杂学术问题上的表现。 3. 训练数据集构建:收集和整理高质量的科学数据,以支持模型强化学习训练。 4. 多模态推理:结合文本、公式、图像、实验数据等多种数据类型,探索提升大模型学科及艺术推理能力的方案。
我们正在寻找专注于提升大模型在科学推理领域能力的研究员,重点优化模型在人文社会科学、文学、心理学、哲学、数学、物理、生物/医学、化学、计算机科学/人工智能、工程等领域的理解与推理能力,推动大模型在复杂科学问题上的表现,使其能够解决类似人类高水平考试中的问题。 岗位职责: 优化模型推理能力:研究并优化大模型在数学、物理、生物/医学、计算机科学、工程、人文社科、心理学、哲学、农学等领域的推理能力。 开发科学基准测试:构建科学推理任务与评测方法,衡量模型在复杂学术问题上的表现。 训练数据集构建:收集和整理高质量的科学数据,以支持模型强化学习训练。 多模态推理:结合文本、公式、图像、实验数据等多种数据类型,探索提升大模型科学推理能力的方案。
职位描述: 我们正在寻找专注于提升大模型在科学推理领域能力的研究员,重点优化模型在人文社会科学、心理学、哲学、数学、物理、生物/医学、化学、计算机科学/人工智能、工程等领域的理解与推理能力,推动大模型在复杂科学问题上的表现,使其能够解决类似人类高水平考试中的问题。 岗位职责: 1. 优化模型推理能力:研究并优化大模型在数学、物理、生物/医学、计算机科学、工程、人文社科、心理学、哲学、农学等领域的推理能力。 2. 开发科学基准测试:构建科学推理任务与评测方法,衡量模型在复杂学术问题上的表现。 3. 训练数据集构建:收集和整理高质量的科学数据,以支持模型强化学习训练。 4. 多模态推理:结合文本、公式、图像、实验数据等多种数据类型,探索提升大模型科学推理能力的方案。
在公司个性化AI相关的大模型/多模态大模型等相关领域进行前沿研究,包括但不限于: 1. 大模型推理和个性化技术,包括模型对齐、推理能力增强、强化学习、个性化推理等研究方向; 2. AI Agent相关技术,如搜索增强/GUI Agent/自主学习Agent/Agent自动生成等; 3. AI搜索相关技术,如工具调用、推理模型、检索增强、多模态检索等; 4. 相关应用落地,包括个性化AI平台、Deep Research、AI创作等; 5. 更多前沿研究方向和未来生活应用场景的深入研究和探索
视觉方向 1.探索大规模/超大规模多模态视觉大模型,并进行极致系统优化,数据建设、指令微调、偏好对齐、模型优化。 2.探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。 3.探索多模态推理模型(Reasoning)架构、提升多模态在学科、通用视觉任务上的思考和推理能力。 4.探索视觉GUI Agent模型构建,提升GUI场景下的理解、规划和决策能力,进而提升人机交互的性能。 5.探索具身智能大模型的构建,提升机器人在物理场景中的模仿学习和强化学习算法,提升具身智能的多模态处理能力以及与开放世界的物理交互能力。 6.探索多模态视觉大模型后训练方法,探索指令微调、强化学习等后训练策略,提升模型的性能。 语音方向 1.语音表征学习:探索同时适用于理解和生成任务、兼顾学习效率和效果的语音表征。 2.模型结构与预训练方法:研究可大规模扩展的模型结构,高效学习语音和文本知识,提升模型的理解和生成能力。 3.音频理解:在语音(Speech)之外,探索更广泛的音频(Audio,如音乐、环境声)理解能力。 4.音频生成:探索高质量音频生成能力,具备强表现力、多风格、多语种、多音色等。 5.后训练方法:探索基于 SFT 和 RL 的后训练策略,进一步提升模型能力上限,。 6.智能交互技术研究,探索高效的智能交互技术,增强系统交互过程中的智能能力、拟人度、自然度和主动性。 全模态融合 大语言模型最近取得的突破,加速了多模态大模型的发展。全模态大模型(Omni-MLLM)通过融入如视觉、语音等模态,拓展了多模态大语言模型的能力,有助于更全面、多维度地理解与生成各种模态,提供更强的智能以及更智能的交互模式。 1.多模态表征对齐:研究在统一模型架构下提取并共享视觉、语音、语言等模态的特征;基于对比学习、自监督学习,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2.多模态统一模型架构:探索统一全模态大模型架构,研究高效全模态预训练技术,使之能够高效处理文本、图像、视频和语音数据,并生成涵盖文本、音频和图像等多种模态的输出 3.多模态知识迁移与能力增强:研究在不同模态间的能力迁移,激发模型在跨模态任务中的涌现能力。