蚂蚁金服蚂蚁集团-大模型研发工程师/专家-鲸探
任职要求
1、硕士及以上学历,计算机科学、人工智能、数学等相关专业。NLP、多模态学习、分布式系统等领域的学术研究或项目经验; 2、5年以上相关工作经验,主导参与过完整模型训练或优化项目。有顶会论文或开源项目贡献优先; 3、数学功底扎实,精通深度学习、NLP核心理论(Transformer、BERT、GPT系列),熟悉扩散模型、强化学习; 4、熟练掌握Java/Python/Go/C++/C#等至少一种服务端语言开发能力,…
工作职责
1、负责大语言模型(LLM)的全生命周期研发,包括架构设计、数据清洗与增强、预训练、微调、优化及工程化落地,并通过技术创新提升模型性能(如效果、效率、可控性),支撑垂直业务场景需求; 2、改进或设计LLM底层架构,构建大规模预训练任务,开发高效微调方法,优化模型对垂直场景的适应能力; 3、设计高并发、低延迟的推理服务,支持动态批处理、内存优化等。
1、负责鲸探业务核心的商城、数字资产、营销互动、社区游戏化等产品服务的系统分析和架构设计,并主导完成详细设计和编码的任务,确保项目的进度和质量; 2、开发和维护鲸探相关产品和系统,快速定位并修复现有软件缺陷; 3、协同组织跨团队沟通协作,确保系统架构内外设计合理或保障项目质量与进度; 4、能够有效地对新人或普通开发工程师进行辅导,帮助其快速成长。
1、大模型关键技术突破,构建AI应用开发平台核心竞争力,支撑共享引擎大模型业务的快速推进和迭代。 2、洞察业界AI大模型应用开发平台的前沿技术,跟踪业界与学术界最新研究动态,围绕大模型应用的高成功率、高执行效率、低门槛,持续探索和突破大模型应用平台创新技术。 3、深度参与深度学习大模型产品研发,工程优化和应用过程中的技术落地,重点关注大模型部署、对齐、模型评估、推理优化加速等
作为大模型评测研发工程师,将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发:从评测数据集设计、智能化自动化评估方法探索研究、指标实现,到平台化落地,精准衡量模型能力边界,持续驱动模型语料优化与模型迭代 通用 Benchmark 研发 • 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架; • 研究并实现更贴合业务发展的评测方法与指标,构建高效、可扩展、可复现、可解释的评测引擎 业务领域 Benchmark 构建与评测 • 深入跨境电商各个业务领域,构建领域Benchmark,真实反馈模型业务表现 • 设计场景化评估方案,如RAG、Agent、COT、 In-Context Learning等,并形成端到端评测能力; 评测方法研究 • 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术 • 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议,高效复现SOTA方法,形成可比对可参考的评估系统