通义研究型实习生-面向代码大模型与强化学习结合的研究与应用
任职要求
1. 计算机科学、人工智能或相关专业背景,熟悉自然语言处理、深度学习或强化学习。 2. 熟悉Python编程,具备过关的工程能力。 3. 对代码生成、代码修复、强化学习等领域有浓厚兴趣。 4. 有科研成果或参与过相关项目的同学优先。
工作职责
随着大语言模型(LLM)在自然语言处理中的推理能力不断提升,越来越多的研究开始关注其在代码领域的应用。本项目聚焦于提升大语言模型在代码生成、代码修复以及代码推理等方面的表现。为了进一步优化模型的性能,本项目将采用强化学习(RL)技术,通过自我反馈和动态调整来提高模型在复杂代码任务中的理解与生成能力。 我们专注于解决以下关键技术问题: 1. 面向代码的推理数据构建:我们将开发面向代码合成的数据集,设计代码推理链,并探索可扩展的监督学习方法,为强化学习模型提供高质量的输入数据。 2. 面向代码的强化学习策略:我们将设计更高效的训练算法,并探索强化学习在人类反馈(RLHF)和人工智能反馈(RLAIF)领域的应用,以优化模型在代码生成与修复任务中的表现。
随着大模型技术的不断发展,代码智能体在实际软件开发流程中展现出巨大的潜力,能够显著提升开发效率。本项目致力于探索大规模代码模型作为智能体的潜能,目标是在仓库级别的代码生成、自动issue修复等场景中,增强代码模型的智能性与自动化处理能力。我们专注于提升大规模代码模型在以下方面的能力: 1. 代码智能体的规划能力; 2. 代码智能体的检索与工具调用能力; 3. 代码智能体的自动修复能力。
我们正在寻找对大模型系统优化充满热情的优秀在读学生,参与大模型后训练阶段(Post-Training)关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体(Agent)系统等方面的系统级优化工作,探索高MFU、低延迟、高吞吐的下一代AI基础设施。 如果你热爱系统与AI的交叉领域,希望在真实超大规模场景中打磨技术,欢迎加入我们,与顶尖研究者和工程师共同推动大模型系统的技术边界! 研究方向与实习内容: 你将从以下四个核心方向中选择1-2个深入参与,开展系统性研究与工程实现: 1. 后训练 MFU(Model FLOPs Utilization)优化 研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈; 设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等); 探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化 针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理); 设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景; 探索训练-采样协同优化,降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化 构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制; 实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑 研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能; 构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估; 探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。
团队介绍:广告业务原为商业产品与技术部门,为抖音集团的商业变现提供广告产品与技术,负责端到端大型广告系统建设,覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵,践行"激发生意新可能"理念,致力于让营销更省心、更高效、更美好,推动商业的可持续增长,让不分体量、地域的企业及个体,都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里,你将投身建设面向未来的数字营销能力,接触到全球先进的商业产品架构、模型和算法,在互联网广告行业始终创新。 课题介绍: 1、核心技术架构: 1)下一代广告技术栈: 模型算法层:搭建基于强化学习的智能出价与流量预估系统,攻克深层转化场景下的数据稀疏、多源异构数据融合(延迟数据/埋点噪声/跨平台行为)等行业难题; 系统工程层:构建支持基于长序列特征的实时预估框架,研发支持动态创意组合的自动化投放引擎; AIGC融合层:建立文/图/视频多模态生成技术中台,实现从IP素材生成到智能投放的全链路闭环; 2)行业首创的AIGC解决方案: 正在搭建全球领先的"小说→漫剧"智能生产线,攻克三大技术堡垒: 多模态叙事引擎:研发支持角色一致性保持(Character-aware Diffusion)、分镜自动生成(Storyboard LLM)、动态运镜控制(Camera ControlNet)的复合型生成框架; 工业化工作流:构建支持分布式渲染、多版本AB测试、合规性审核的智能生产管线,实现日均千级素材产能; 投放增效系统:开发生成质量量化评估模型(QAGAN),建立素材生成-投放效果的反哺优化机制; 2、岗位挑战: 你将主导: 构建支持沿模型的混合推理框架,优化多卡并行下的生成效率; 设计跨模态对齐算法,提升文字指令到视觉元素的可控生成精度; 研发基于用户行为分析的智能素材变异系统,实现CTR提升30%+的个性化内容生成; 打造从内容生产到实时竞价的全自动化广告引擎; 3、我们期待这样的开拓者: 精通Diffusion Models技术栈,具有LoRA/ControlNet/T2I-Adapter等微调框架的实战调优经验; 熟悉多模态大模型(如VideoPoet、Sora等视频生成技术原理),具备跨模态表征学习研究背景; 拥有广告算法背景者优先,熟悉CVR预估、智能出价等核心模块与生成式AI的结合点; 出色的工程化能力,主导过至少一个完整AIGC项目的端到端落地(从模型训练到服务部署)。
在大模型技术日臻成熟与广泛应用的背景下,自动代码生成的研究步入了一个全新的阶段。近年来,随着大规模预训练语言模型(如GPT系列、通义千问系列)的突破性发展,以及多智能体系统(Multi-Agent Systems, MAS)在复杂环境决策和协同任务处理中的深入探索,如何结合这两者的优点,构建具备高度环境感知能力的Code Multi-Agent系统,已成为软件工程和人工智能交叉领域的重要课题。因此,针对Code Multi-Agent系统在项目环境感知方面的研究,不仅能够填补现有工具在智能化程度上的空白,更有望引领软件工程实践进入一个崭新的自动化与智能化时代。