阿里云阿里云智能-Python高级研发工程师-杭州/北京
任职要求
• 3年以上T、互联网、云计算开发相关工作经验 • 熟悉Python/Java/C++至少一门语言,有Linux/Mac环境下开发经验,熟练使用调试工具 • 在多线程、高并发分布式编程、DevOps、操作系统、虚拟机、设计模式等领域有扎实认知 • 能提供高质量代码产出和文档沉淀,积极参与推动code review,提交代码前能完成自测 • 对技术领域基本原理有深刻理解…
工作职责
业务支撑 • 负责资源编排ROS运维系统、AI诊断、AI运维助理、运维MCP等功能 • 负责资源编排ROS管控功能、资源逻辑和IaC引擎等模块 技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班Oncall、升级工单处置、Bug排查、问题诊断、产品体验改善、性能和成本优化等 稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议 技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性
1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系
我们是阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合,为用户打造更好更智能化的网上购物体验,同时赋能百万商家实现更高效的经营。 选择加入我们意味着投身入于高速发展的国际化电商业务,一起打造最先进的AI技术以驱动全球电商业务发展。 岗位描述: 1、参与并负责搜索、推荐算法研发,提升全球不同语言的搜索精准性和国家差异化个性化推荐体验。 2、参与并负责广告算法研发,提升全域流量广告流量变现效率,通过竞价及投放优化、素材生成等提升商家投放效率。 3、参与并负责用增算法的研发,提升电商获客效率,建设优化个性化外投广告、个性化触达消息、个性化权益补贴等算法能力。 4、参与研发生成式AI技术,推动生成式AI在国际电商领域的创新应用。