字节跳动机器学习平台专家-PICO(北京/上海)
任职要求
1、硕士及以上学位,计算机相关专业优先,三年以上Golang/Python/C++开发经验; 2、熟悉PyTorch/Tensorflow等主流深度学习框架并能进行相关…
工作职责
1、负责机器学习平台和框架的研发,聚焦AI算法工程师的体验与GPU资源利用率; 2、设计和实现机器学习相关的算法框架以及工具链等,形成自动化Workflow并推动落地到业务中; 3、负责云端推理服务的性能优化和研发工作。
1. 负责业界/学界SOTA方案调研和原型验证; 2. 结合公司业务特点,给出AI Infra建设规划(重点是训练&推理优化); 3. 针对不同技术方案的成本、收益,给出方案选型建议; 4. 方案落地过程中进行风险把控和方向纠偏; 5. 指导一线工程师解决新方案落地过程中的卡点。
1.参与模型服务平台云原生管控系统,资源管理调度系统,服务引擎,以及平台产品化相关的开发 2.参与模型服务serverless化的建设,服务启动调度性能优化,计量计费等相关的开发 3.大规模GPU集群稳定性建设,可观测建设,安全性建设,资源调度超卖等方面的建设 4.根据用户反馈快速定位线上问题,将用户需求沉淀为平台功能,增强平台能力
1. 研发需求洞察与设计:负责阿里云人工智能平台PAI的需求讨论、架构设计、软件开发、功能测试及部署上线,确保项目从初始阶段到交付的全流程高质量执行; 2. 系统优化:从功能、性能、可用性、易用性等多个维度,结合产品设计、产品设计和解决方案架构及客户反馈,进行系统各模块的持续分析和优化,降低用户使用门槛,提升用户满意度和忠诚度; 3. 技术支持与维护:负责线上环境的运行监控与问题定位,与SRE和售后团队紧密协作,及时为客户提供技术支持,保障平台的稳定运行; 4. 前沿技术开发:紧贴大模型及AIGC等业界趋势,提炼并反馈有价值的用户需求,持续增强和改进平台的功能,保持技术的先进性和市场竞争力。
1. MLOps平台开发打造一站式大模型开发平台,负责主流开源和闭源模型的训练、评测、蒸馏、压缩、部署全链路工具开发 ● 参与模型各种后训练如微调、蒸馏、强化学习的产品化,以及vLLM/sglang/自研推理引擎的优化,提供有竞争力的推理性能 ● 负责各种MLOps工具链开发,如AI资产管理、实验管理、血缘跟踪、评测对比等,帮助用户串联AI开发全流程,提升模型开发效率 ● 负责多模态数据自动标注和挖掘功能的开发,为智驾和具身智能客户提供新一代的数据工程解决方案 2. 企业级Agent开发平台建设 ● 建设具备全模态能力的agent开发平台,帮助客户构建RAG、chatbot、data agent、design agent、research agent等各种AI agent应用 ● 提供白盒化开发模式,建设全链路的可观测、可调试和监控能力,帮助用户构建同时具备高精度和高性价比的agent应用 ● 针对企业客户对安全隐私的强需求,构建全方位的安全防护能力,包括不限于模型安全护栏、工具沙箱、细粒度权限管控等 ● 与阿里云大数据、智能搜索等业务产品合作,建设阿里云agent工具生态