蚂蚁金服蚂蚁集团-AI研发平台技术专家-杭州/上海/北京【数据平台】
任职要求
1. 具备扎实的计算机相关基础知识,如Linux编程环境、数据库应用、基础网络、常用算法等; 2. 精通Java/Python/Golang中至少一门语言的工程化实践,具备高并发/分布式系统开发经验,熟悉语言生态下的主流框架与工具链 3. 对如下一个或多个领域有深入理解和实践,或有浓厚兴趣: (1)机器学习工程化方向:深度参与过LLM/NLP/多模态/搜索推荐系统等领域的全链路技术实现。具备MLOps体系建设经验,包括但不限于训练框架适配、模型服务平台开发、监控治理系统设计 (2)大模型前沿技术方向: 掌握大模型高效微调技术体系(Lora/P-Tuning/RLHF),精通量化压缩、动态批处理等推理…
工作职责
1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。
1. 负责大模型分布式训练/推理系统性能优化及配套工具研发,包括软硬件协同的模型结构设计与训推系统升级,覆盖MegatronLM、SGLang、Vllm、RL系统等,以及超大规模数据和模型参数下的存储、计算、网络联合优化。 2. 负责多模态数据提取系统研发,结合大模型、传统小模型、Agents等技术,以及异构计算下的流批一体系统,建设高质量多模态数据加工和分析系统。 3. 推动基础引擎与大模型、异构硬件等新技术形态的应用落地,保持在行业内的前沿水平。
1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求,围绕资源管理平台确定相应技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护资源管理平台核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品,通过标准化API接口提供LLM/MLLM等大模型推理服务,致力于为AI应用开发者提供品类丰富、数量众多的模型选择,并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务,各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。 工作职责: 1、参与/负责大模型推理服务平台(MaaS)的架构设计、系统研发、产品研发等工作; 2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作,实现千亿级Token并行推理平台; 3、为内部产品线提供解决方案,协助公司内用户解决大模型应用过程中业务在平台上的使用问题。
1. 负责互联网平台、高端制造等行业的业务拓展工作,基于蚂蚁数字蚂力能力提供客户服务、营销服务、端应用开发、AI应用开发、大模型部署的解决方案,达成业务收入目标; 2. 深入洞察目标行业客户在降本增效、数字化转型、大模型应用方面的趋势和痛点,能够建联到客户运营、客服、营销、技术负责人; 3. 将客户需求和痛点与我们的产品及解决方案相结合,挖掘项目机会,推动签约、项目上线,对重点项目进行管理、包括统筹资源进行业务交流、技术测试、商务谈判、管控项目风险,为公司在客户的目标结果及价值呈现负责; 4. 根据公司及部门的业务发展需求和规划,寻找挖掘生态合作伙伴(科技方向),并提出有效的商务合作模式及方案。