字节跳动大模型算法工程师(教育应用方向)-Gauth
任职要求
1、本科及以上学历,计算机相关专业,1-3年大模型工作经验; 2、优秀的代码能力、数据结构和基础算法功底,熟练使用Python等语言; 3、扎实的机器学习基础,熟悉CV、NLP、RL、ML等领域的技术,熟悉PyTorch等主流深度学习框架; 4、熟悉指令微调、RLHF/DPO、RAG等大模型技术,有LLM/VLM训练、评估、部署的实际经验优先; 5、具备强烈的求知欲、出色的动手能力和自驱力、良好的沟通协作能力,对AI+教育有热情。
工作职责
团队介绍:Gauth 是一款受全球用户喜爱的 AI 教育产品。我们致力于使用领先行业的人工智能技术,提升学生的学习体验。加入 Gauth 团队,你将有机会为全球数千万学生提供优质服务,并与顶尖专家合作,站在科技前沿,推动 AI 与教育科技的发展。 1、大模型基础能力建设:负责构建高质量教育数据集和全面的模型评估体系,支撑模型迭代优化;主导教育场景下LLM/VLM的核心算法研发与训练,持续提升模型的推理、对话等关键能力; 2、前沿技术探索与应用:追踪大模型前沿进展,探索Long-CoT、RL、AI Agent等技术在教育的应用潜力;基于技术洞察,设计创新应用模式,孵化并推动个性化AI辅导、多模态交互学习等功能的实现; 3、协作与业务落地:与产品、工程、教研等团队紧密协作,理解业务需求,共研优化技术方案;推动算法模型快速迭代、与业务场景深度融合及效果验证,负责或参与模型部署、维护与优化。
团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、擅长发现优化大模型的简单、普适的想法,并应用到各个规模的模型中提升效果; 2、探索多轮对话场景下复杂指令遵循与模型在长文本下的推理能力; 3、推进数据建设、指令微调、偏好对齐、模型优化方面的工作,提高模型质量和适应性; 4、推进教育领域大模型效果评估,尤其是复杂场景(多轮对话、多模态)评估集建设和自动化评估能力建设; 5、基于教育领域应用优化模型效果,包括AI导师、解题、讲题、批改等场景; 6、深入研究和探索大模型在教育领域中的更多使用场景,拓展模型的应用范围。
以大模型对话技术为核心,探索前沿技术问题,研究方向主要为垂域模型的研究与构建。目标是为用户提供专属的玩乐变美便捷生活小助手,实现“技术驱动业务范式”的升级转变,最终助力商业价值全面提升。 研究方向一:Agent能力增强 基于Agent的用户助理,研究提升Agent自主规划能力,并通过Agent构建和基于后训练的优化,实现数字助理的能力复刻和增强。 研究方向二:强化学习算法研究 参与大语言模型后训练阶段的强化学习算法研究,包括基于AI和环境反馈的强化学习(RLXF)算法。同时探索奖励模型与反馈机制,研究可泛化的细粒度过程监督和奖励建模,探索基于细粒度反馈的强化学习算法。 研究方向三:垂域模型定制化构建 领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向,同时建立面向AGI的模型评价体系新范式。 研究方向四:精准上下文理解与长程依赖建模 研究如何高效、准确地捕获和利用复杂的项目级上下文信息(如整个代码库、依赖关系、API文档、Issue跟踪等),探索能够处理超长代码序列、理解跨文件依赖和项目架构的先进模型结构与表征方法,以支持更精准、更全局的代码智能,从而提升业务研发在存量代码中迭代的效率。
我们是致力于推动智能化服务技术革新的创新团队,专注于为全行业提供高效、智能的解决方案。我们的业务涵盖智能客服、智能培训、智能质检等多个领域。 我们团队正在建设“评测数字员工”,旨在通过标准化、智能化的评测手段,推动AI智能服务的全面升级,并打造行业领先和有代表性的评测体系与benchmark。 如果你对AI、NLP、数据挖掘、评测等领域充满热情,并希望在一个充满挑战与机遇的环境中快速成长,那么加入我们,一起定义未来智能化服务的新标准! 【职位描述】 1. 评测体系设计:参与设计并优化智能化服务(包括智能客服、智能培训、智能质检等)的评测体系,涵盖对话质量、操作质量、培训效果、拟人化、用户满意等核心指标。 2. 评测开发与优化: ○ 研发并优化基于LLM-as-Judge的评测能力,包括但不限于对话生成质量评估、意图识别准确率、多轮对话一致性等。 ○ 探索agent在复杂任务中的性能评测方法,如任务规划、SOP遵循、RAG、多模态交互等。 3. Red-team:针对agent系统的弱点进行攻击,找到系统潜在的风险,防患于未然。 4. Benchmark构建:构建并维护智能化服务领域的代表性benchmark,确保评测标准的科学性与可扩展性。 5. 数据驱动决策:通过数据分析与挖掘,识别智能化服务系统的性能瓶颈,并提出改进方案。 6. 跨业务协作:与多个智能体研发团队、产品团队紧密合作,确保评测体系与业务需求的高度匹配,推动产品的持续优化。 7. 技术前沿探索:跟踪智能化服务领域的最新技术动态,探索并落地创新评测方法。
1、发现优化大模型的简单、普适的想法,并应用到各个规模的模型中提升效果; 2、推进数据建设、指令微调、偏好对齐、继续预训练等模型优化方面的工作,提高模型质量和适应性; 3、探索复杂指令、长上下文、多轮对话下,大模型更为复杂的理解、推理和生成能力; 4、基于语言处理、内容创作、教育Tutor、角色扮演、复杂Agent、AI搜索和工具、代码助手等服务和应用优化模型效果; 5、推进大模型效果评估,尤其是复杂场景(多轮对话、开放领域)评估集建设和自动化评估能力建设; 6、深入研究和探索大模型在ToB企业服务中的更多使用场景,拓展模型的应用范围,如搜索、推荐、广告、创作、客服和办公等各类场景。