快手智能体agent开发算法工程师-【游戏事业部】
任职要求
1. 计算机科学、人工智能、机器学习等相关专业硕士及以上学历,在 AI 领域 5 年以上工作经验,大模型/AIGC 领域 1.5 年以上的工作经验; 2. 熟悉主流大模型架构,理解其底层原理(自注意力机制、位置编码、训练和推理优化等); 3. 熟悉大模型 Agent 开发框架如 Langchain、LLamaIndex、4.SemanticKernel、Dify 中的一种或者几种,有相关的应用经验; 4. 熟悉搜索引擎、数据库、大数据引擎、后端开发等 AI 相关开发生态,拥有较宽的技术视野; 5. 熟练运用常见设计模式,熟悉并能合理运用后端研发常用技术,包括但不限于存储、缓存、消息、搜索、微服务等。 加分项: 1. 具有某个业务领域下的 AI Agent(如智能客服、代码生成、智能分析、智能办公助手等)的整体架构设计经历,并有成功落地的案例; 2. 有低代码平台、大数据管理和应用平台、AIGC workflow 平台等平台型产品的工作经验。
工作职责
1. 大模型垂域应用系统的整体架构及业务链路设计,包括但不限于系统设计、算法工程、AIGC应用搭建等; 2. 应用大模型、向量数据库、知识检索、MCP、A2A、 Function calling 等技术,构筑包含 Prompt智能填充、复杂任务规划、大小模型异构调度、数据沉淀和管理的 Agent 平台,用于在游戏开发过程中的能力提效 和游戏智能NPC的开发; 3. 和模型算法同学一起,通过算法和架构结合,改进算法的效果,保证能力的稳定性,降低技术成本; 4. 跟踪最新的智能体技术研究和进展,并在游戏 AI 领域进行创新性探索。
1、参与有灵平台Agents框架设计开发与优化,并负责将Agents框架应用于游戏AI的工程化服务于游戏产品; 2、探索Agent运行引擎(推理、感知、记忆等),关注AI智能体在游戏产品中的应用场景,并不断优化Agents框架的性能,提升Agents框架的稳定性和易用性;
业务场景: 在开放世界游戏环境中,进行游戏内容理解与动态解说,驱动智能体完成指定任务、实现自主探索,并支持多智能体复杂交互等前沿AI应用场景。 岗位职责: 研究与开发: 负责开放世界游戏场景下基于大语言模型(LLM)及视觉语言模型(VLM)的智能体(Agent)技术研究与开发,涵盖Prompt工程、上下文学习(ICL)、检索增强生成(RAG)、监督微调(SFT)、强化微调(RFT)等关键技术。 框架与工具链构建: 主导游戏智能体核心框架的设计与实现,推动训练数据合成、自动化评测体系及相关算法的研发。 工业化落地: 推动游戏智能体技术在游戏内容生产与玩家消费场景的工业化部署与产品化落地,实现技术价值转化。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 视觉语言理解能力是Qwen最重要的能力之一,围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型,将拓展到视频理解,GUI Agent,以及VLA 和机器人等场景中。团队负责:1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力,并优化多模态大模型AI infra;2)探索多模态Agent和推理能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体;3)研究生成与理解统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责 1. 多模态Pre-training:开展研究及进行实验。研究内容包括:数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training:迭代Post-training训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的Test Scaling Laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 若你对以下一个或者多个方向感兴趣均欢迎投递: 1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力,并同时优化多模态大模型的AI infra。 2)通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体,将相关能力拓展到GUI agent,VLA,以及具身智能场景中。 3)研究理解与生成统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责: 1. 多模态 pre-training:开展研究及进行实验,研究内容包括:数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training:迭代 post-training 训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的 test scaling laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。