小米高级机器学习平台研发工程师 - 商业化
任职要求
1. 计算机相关专业,本科及以上学历, 5年以上生产项目开发经验; 2. 扎实的算法和数据结构功底,精通java,scala中至少一门编程语言; 3. 熟悉spark、flink等大数据相关技术,深入了解Te…
工作职责
1. 负责一站式机器学习平台的架构升级,支撑百亿级广告收入规模下的商业化算法模型高效迭代 2. 负责深度学习工作流各环节的深度优化,包括特征和样本生产提效,模型训练加速等 3. 与商业化算法团队密切合作,支撑广告算法前沿技术探索和落地
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1. 参与建设搜推机器学习平台,根据业务需求开发相应功能,支持算法的业务迭代,提升算法迭代效率 2. 对算法开发过程进行抽象,将常用的深度学习过程沉淀为组件,建设算法开发pipeline,设计代码与可视化组件相结合的编程范式,提供便捷稳固的一站式环境托管 3. 面向核心本地商业全搜推业务,建设海量数据规模的特征/样本工程,包括离线特征/样本生产、流式训练数据链路建设(ODL)、特征样本监控分析等大数据工程
团队介绍: "阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合,为用户打造更好更智能化的网上购物体验,同时赋能百万商家实现更高效的经营。 选择加入我们意味着投身入于高速发展的国际化电商业务,一起打造最先进的AI技术以驱动全球电商业务发展。" 职位描述: 1. 打造行业领先的AI工程平台: 设计并构建支撑算法模型高效迭代的标准化平台体系(特征平台、训练平台、在线推理框架等),打通算法创新与业务验证的“任督二脉”,加速模型价值落地。 2. 攻坚大模型工程化挑战: 深入探索生成式AI(AIGC)技术在实际业务中的规模化落地,主导大模型训练、推理加速、性能优化等核心工程难题的解决。 3. 开拓AI创新应用的边界: 积极探索AI在搜索/推荐/广告(搜推广)等核心场景的颠覆性应用(如生成式召回、生成式排序、行为大模型),以及AI Agent技术在智能运维、资源优化、智能客服助手等领域的创新实践,为业务创造新价值。
1.深入理解本地生活到店业务在业务保障领域的场景诉求,有机融合业务和技术,从运行稳定性、功能健壮性、性能容量等方面,基于公司的基础设施与中间件设计,探索并落地稳定性保障相关工作(容灾、容错、容量、应急快反),实现、优化业务保障相关产品和解决方案; 2.进行运维领域相关领域的探索,借助智能化的技术提升业务保障领域相关的能力和效率; 3.主导或参与业务保障相关技术平台的产品化、平台化建设,让技术具备更好的通用性和规模化复制能力; 4.通过技术影响力和团队协作能力横向推动本地生活到店业务的业务线、平台团队落地稳定性架构升级,并反向推动公司基础设施升级。