拼多多大模型应用算法专家 / 工程师(Coding方向)
任职要求
1、计算机、人工智能、数学、软件工程等相关专业,硕士及以上学历; 2、有大模型相关项目经验,熟悉 LLM、Code LLM、RAG、Agent 等方向; 3、熟悉 Transformer 架构及 SFT、DPO、P…
工作职责
1、负责 Coding 大模型能力优化,包括 Prompt、SFT、RL、RAG、Agent 等方案设计与落地; 2、提升模型在代码补全、代码生成、代码解释、Bug 修复、单测生成、Code Review 等场景中的效果; 3、构建代码数据、偏好数据和评测集,建立面向真实研发任务的评估体系; 4、与工程团队协作,优化模型训练、推理和部署效率,推动能力在 IDE、代码平台、研发流程中的落地; 5、建立业务效果闭环,持续跟踪模型上线后的采纳率、提效收益和研发质量提升情况。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、通用Agent是实现AGI的重要路径,我们希望实现一个不仅能对话的Chatbot,更希望做一个能够帮助每个人完成物理世界里各种高价值复杂任务的通用Agent; 2、我们要做的通用Agent会具备Search/Coding/Intepretor/Tool Use/GUI等能力,也能把不同的能力协调起来,完成人类专家长时间才能完成的任务; 3、这个通用Agent还需要具备良好的泛化性,在训练没有见过的任务上也要有良好稳定的性能表现,做到较好的通用性; 4、通用Agent是我们朝着AGI迈出的重要一步,下一步我们希望通用Agent能够帮助用户做Science Discovery,这里我们具有远大的目标,如果你也有同样的目标,欢迎加入我们。
机器智能部门介绍: 蚂蚁集团大安全事业群机器智能团队致力于打造安全科技的核心竞争力,做可信AI的持续引领者,为广大支付宝用户的数字化生活提供全方位安全保障。作为蚂蚁集团安全版图中的核心力量,我们正以最前沿的AI算法为刃、以大模型为盾,编织数字世界的"安全之网"。在这里,大模型、智能体、AI安全等热门的研究不再是纸上谈兵,每一个方向都在落地成为真实业务场景、十亿级用户的智慧防线。 关于团队,过去获得过浙江省科技进步一等奖、中国电子学会科技进步一等奖,人工智能学会吴文俊人工智能自然科学奖一等奖,中国图象图形学学会科技进步一等奖、多次获得中国计算机学会科技进步奖、世界人工智能大会SAIL之星与"镇馆之宝",等多个重量级奖项。可信AI专利布局全球第一,主导制定ITU国际风控标准。多名Kaggle Grandmaster ,拿过多个KDD Cup/CVPR/NeurIPS/ICCV/CVPR/ECCV等多个顶会竞赛冠军,累计发表近百篇顶会论文; 在这里,你将有机会和毕业于海内外著名高校的行业专家们、众多KDD Cup/CVPR 等比赛冠军、Kaggle Grandmaster 、顶会论文作者们共同根植蚂蚁丰富的场景数据,利用海量算力探索创新前沿算法应用,使用领先的机器学习算法解决风控业务问题,构建数据与知识驱动的智能风控体系,提升用户的支付安全体验。 加入我们,让我们一起为世界带来微小而美好的改变。 1.伪造检测方向,统一篡改和生成,统一图像、音频和视频的Allinone模型,并探索推理和生成reward; 2.多模推理方向,视觉图像&视频reasoning,提升理解和推理能力,攻坚reward设计、多模态推理框架设计等核心问题; 3.多模交互方向,构建统一的端到端多模态模型,使其能够像人类一样同时感知多种模态的信息(文本、图像、音频、视频),并以流式方式生成文本和自然语音响应。
作为核心算法成员,参与AI图像相关算法研发,主要服务于下一代智能相册系统。主要工作包括: 一、图像理解方向: 1)开发基于多模态语义的图像理解算法:人物识别、事件聚类、情绪识别、场景识别等;构建个性化的图像语义标签体系; 2)设计图像内容质量评估模型(重复、模糊、人脸表情等)提升用户体验; 3)探索RAG、多模态图像大模型、文本大模型联动下,agent能力建设和开发。 二、 图像AIGC方向(创作与编辑): 1)研究并实现图像生成与编辑算法,如背景替换、人像美化、风格迁移、文生图,图生图等; 2)参与基于 Diffusion基础模型训练; 3)参与ControlNet、Inpainting、aigc编辑大模型等前沿应用模型的业务开发和落地;
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的coding agent/digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)通过Large-scale Pre-training 和 Large-scaleRL来提升Code Reasoning能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务; 2. 负责Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过Scaling海量数字世界数据结合大规模合成数据,来提升Computer-Use Agent的Grouding能力。 (2)通过Long Horizon的方式进行强化训练,结合可扩展的多模态环境反馈来提升CU Agent的Reasoning的能力。