字节跳动视觉多模态大模型应用算法工程师-Top Seed
任职要求
1、2026届获得博士学位,计算机、人工智能、自动化、数学、物理等相关专业; 2、具有优秀的基础算法、代码能力,熟练掌握C/C++或Python编程语言,ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先; 3、具有扎实的计算机视觉、机器学习基础,熟悉CV、AIGC、NLP、RL等技术领域,在CVPR、ECCV、ICCV、Neur…
工作职责
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责多模态大模型的研发和应用,探索超大规模模型,进行极致系统优化;研究相关技术在豆包、智能助手、智能硬件等领域的全新应用和解决方案,包括而不限于多模态理解生成,视觉Agent等能力; 2、数据建设、指令微调、偏好对齐、模型优化; 3、相关应用落地,包括看图对话、问答、搜索、生成创作、逻辑推理、代码生成等; 4、在未来生活中的更多使用场景的深入研究和探索,研发以人工智能技术为核心的新技术、新产品;满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责多模态大模型的研发和应用,探索超大规模模型,进行极致系统优化;研究相关技术在豆包、智能助手、智能硬件等领域的全新应用和解决方案,包括而不限于多模态理解生成,视觉Agent等能力; 2、数据建设、指令微调、偏好对齐、模型优化; 3、相关应用落地,包括看图对话、问答、搜索、生成创作、逻辑推理、代码生成等; 4、在未来生活中的更多使用场景的深入研究和探索,研发以人工智能技术为核心的新技术、新产品;满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式。
1、负责建设风控场景大规模预训练模型,结合LLM技术发展,探索面向风控场景的Tokenization、Scaling Law等技术方向 2、参与亿级用户的信贷逾期&保险定价的算法优化,创新传统金融风控领域建模范式,用技术变革带来新的业务增长空间 3、协同跨团队技术和业务同学共同推动项目达成技术和业务目标。
我们是谁 快手本身是一家以内容为主的公司,在大模型技术蓬勃发展的时代,多模态能力是快手非常重视的一个方向。目前团队主要的工作重心在视频理解和图片理解,包括短视频、长视频、直播、交互式视频等,主要的任务形态以Caption和QA为主,同时在生成类场景发挥着重要的作用。团队的主要工作围绕在数据组织、模型设计、训练范式设计上,会推出基座模型给到下游业务进行SFT,部分业务是紧密合作的。模型迭代会以业务反馈作为牵引,不断提升在自建指标和公开指标上的成绩。 职位描述 1、探索多模态理解任务上的自研数据构建、模型架构和训练范式,打造业界第一梯队的多模态大模型; 2、搭建更有针对性的评测,用于真实反映模型的实用效果,为模型训练提供指导方向; 3、强化Caption和QA能力,在图片/视频的理解/描述能力上赶超GPT4o、Gemini Pro等闭源模型的实际使用效果; 4、洞察业务需求,能够以业务目标为牵引持续迭代模型,在支持好业务的同时,发掘多模态的独立出圈应用玩法; 5、探索技术边界,将有特点的技术成果进行学术转化,在顶尖学术会议上发表论文,并保持与业界专家的交流。