小米高级机器学习平台研发工程师 - 商业化
任职要求
1. 计算机相关专业,本科及以上学历, 5年以上生产项目开发经验; 2. 扎实的算法和数据结构功底,精通java,scala中至少一门编程语言; 3. 熟悉spark、flink等大数据相关技术,深入了解Tensorflow、PyTorch等深度学习框架者优先; 4. 有广告业务、机器学习平台(特征平台、样本中心、模型训练平台)背景者优先; 5. 良好的团队合作精神,较强的沟通能力,主动性强,有很强的自我驱动力;
工作职责
1. 负责一站式机器学习平台的架构升级,支撑百亿级广告收入规模下的商业化算法模型高效迭代 2. 负责深度学习工作流各环节的深度优化,包括特征和样本生产提效,模型训练加速等 3. 与商业化算法团队密切合作,支撑广告算法前沿技术探索和落地
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1. 参与建设搜推机器学习平台,根据业务需求开发相应功能,支持算法的业务迭代,提升算法迭代效率 2. 对算法开发过程进行抽象,将常用的深度学习过程沉淀为组件,建设算法开发pipeline,设计代码与可视化组件相结合的编程范式,提供便捷稳固的一站式环境托管 3. 面向核心本地商业全搜推业务,建设海量数据规模的特征/样本工程,包括离线特征/样本生产、流式训练数据链路建设(ODL)、特征样本监控分析等大数据工程
1.深入理解本地生活到店业务在业务保障领域的场景诉求,有机融合业务和技术,从运行稳定性、功能健壮性、性能容量等方面,基于公司的基础设施与中间件设计,探索并落地稳定性保障相关工作(容灾、容错、容量、应急快反),实现、优化业务保障相关产品和解决方案; 2.进行运维领域相关领域的探索,借助智能化的技术提升业务保障领域相关的能力和效率; 3.主导或参与业务保障相关技术平台的产品化、平台化建设,让技术具备更好的通用性和规模化复制能力; 4.通过技术影响力和团队协作能力横向推动本地生活到店业务的业务线、平台团队落地稳定性架构升级,并反向推动公司基础设施升级。
我们是阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合,为用户打造更好更智能化的网上购物体验,同时赋能百万商家实现更高效的经营。 选择加入我们意味着投身入于高速发展的国际化电商业务,一起打造最先进的AI技术以驱动全球电商业务发展。 团队介绍 1、负责支持业务迭代:推进来自搜索、推荐、广告、用增各域的产品的数据需求快速落地。 2、负责数据架构设计:负责设计和开发大数据处理和分析模型以及报表搭建,支持业务决策和洞察挖掘 3、负责数据质量和调优:参与数据仓库的构建,优化数据模型,确保数据的准确性和可用性 4、负责数据平台开发:构建算法与工程,数据协同的标准化平台,包括OLAP分析平台,AB实验平台等,支持算法快速迭代与业务效果验证。 5、负责大模型相关Agent的应用:负责生成式AI技术的赋能,可以搭建或者使用大模型工具帮助业务做决策分析等相关技术工作。