字节跳动科学大模型研究员-Seed
任职要求
1、具有计算机科学、电气计算机工程或相关领域的博士或者硕士学位; 2、在AI和机器学习方面拥有很强的研究经验,在国际顶会(例如ICML,NeurIPS,ICL…
工作职责
1、开发自然科学的基础大模型,用于蛋白质结构预测、分子构象生成和蛋白质设计; 2、利用公共基准和数据库评估新的AI/ML方法; 3、与多学科团队密切合作,将创新算法应用于解决前沿挑战。
1、开发自然科学的基础大模型,用于蛋白质结构预测、分子构象生成和蛋白质设计; 2、利用公共基准和数据库评估新的AI/ML方法; 3、与多学科团队密切合作,将创新算法应用于解决前沿挑战。
1、项目管理能力优秀,能够主导并管理多个代码类大语言模型(LLM)训练项目,确保按时交付、符合质量标准并达成目标;跟踪项目进展,识别风险,并采取必要的纠正措施以保证项目按计划推进;与产品经理、研究员、数据标注员及其他跨职能团队成员建立并维护良好的合作关系,同步项目进展,解决问题并协调各方期望,确保项目成功交付; 2、流程设计及优化,设计、管理并优化代码类LLM训练项目的工作流程,包括训练设计、质量保证(QA)流程及效果追踪,以满足项目需求;与产品经理、项目负责人及跨职能团队紧密协作,确保质量标准与项目目标保持一致; 3、运营优化,开展质量与效率优化实验,提升代码类训练数据的运营流程;主导并支持跨数据领域的通用标注运营优化计划;制定并维护技术指南及案例手册,确保数据生产的高质量与一致性; 4、数据监控及分析,设计并实施稳健的数据分析策略,系统评估训练集与验证集质量通过统计建模、可视化分析及编程方法,全面监测标注质量、模型表现及数据集覆盖度采用分片评估、提示词敏感性测试及聚类错误分析,精准识别数据缺口、边界案例与失效模式,运用Python(Pandas/NumPy/Matplotlib)及SQL工具链,生成可落地的改进建议,保障数据管道健康度,与模型训练标注员及研发紧密协作,基于数据洞察指导训练策略调整,推动以数据为核心的项目迭代。
Top Seed人才计划-豆包大模型研究实习生专项:面向 2025 年 9 月及以后毕业的博士及本硕在读同学,加入我们,你可以自主决定研究课题,与正式员工享受同等权限和资源,和优秀的研究员一起,向智能上限发起挑战。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、AI搜索总结Agent研发: 1)设计并实现基于LLM的搜索总结Agent,提升搜索结果的理解、推理与结构化总结能力; 2)探索LLM Reasoning技术(如思维链、多步推理),优化复杂查询的Deep Research模式,实现长文本理解与跨文档信息融合; 3)构建端到端系统,涵盖意图识别、知识检索、结果生成与偏好对齐,提升用户体验; 2、模型优化及应用: 1)通过指令微调(Instruction Tuning)、偏好对齐(RLHF/DPO)等技术优化模型在搜索场景的适应性; 2)探索多模态信息(文本、代码、结构化数据)融合的搜索与生成技术; 3)研究未来生活中的创新应用场景(如个性化知识助手、自动化研究工具),探索技术边界。
Top Seed人才计划-豆包大模型研究实习生专项:面向 2025年 9 月及以后毕业的博士及本硕在读同学,加入我们,你可以自主决定研究课题,与正式员工享受同等权限和资源,和优秀的研究员一起,向智能上限发起挑战。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、AI搜索总结Agent研发: 1)设计并实现基于LLM的搜索总结Agent,提升搜索结果的理解、推理与结构化总结能力; 2)探索LLM Reasoning技术(如思维链、多步推理),优化复杂查询的Deep Research模式,实现长文本理解与跨文档信息融合; 3)构建端到端系统,涵盖意图识别、知识检索、结果生成与偏好对齐,提升用户体验; 2、模型优化及应用: 1)通过指令微调(Instruction Tuning)、偏好对齐(RLHF/DPO)等技术优化模型在搜索场景的适应性; 2)探索多模态信息(文本、代码、结构化数据)融合的搜索与生成技术; 3)研究未来生活中的创新应用场景(如个性化知识助手、自动化研究工具),探索技术边界。