阿里云阿里云智能-解决方案架构师-北京/上海/杭州/广州/深圳
任职要求
1.在云计算、AI大模型、大数据领域,或者在某个行业IT领域,有丰富的售前解决方案咨询/架构设计的落地经验和标杆案例。 2.有5年以上云计算行业解决方案或架构设计从业经历,具备Java/PHP/Python等至少一种语言的开发经验,综合能力强,有互联网行业背景优先。 3.熟悉主流互联网技术架构,如典型的容器化、大数据、微服务、AI应用、安全等成熟实践…
工作职责
1.支持泛互联网和企业客户售前业务拓展,结合云产品技术和AI大模型,为客户定制云化解决方案、AI大模型解决方案,并能协同产品和服务团队进行技术验证,实现业务上云和AI应用场景落地。 2.作为云技术专家,向客户提供业务上云或者支撑关键需求的云计算解决方案,构建弹性、高可用的互联网架构;以最佳云上架构构建业务系统、云底座、监控体系、DevOps、大数据、AI等系统;从成本、效率、稳定性三个维度提升客户云化能力,确保方案可落地、有竞争力。 3.具备典型细分行业如泛互联网(游戏、在线教育、人工智能等)、泛企业(零售、电商等)的市场洞察、解决方案、打法策略及落地经验,能够把握行业的市场和技术发展趋势,推动行业产品解决方案落地。 4.与产品研发团队合作,传递市场需求打磨优化产品竞争力,共同研发或完善满足特定行业,特定应用场景的产品和解决方案。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系
【职位描述】 1、负责小红书搜广推多场景排序模型优化,提升时长、互动、留存等核心指标; 2、分析海量用户行为数据,挖掘用户兴趣,优化排序模型; 3、通过超大规模机器学习模型和系统,使用先进的排序算法优化推荐效果。
Location: 杭州市西湖区西溪谷国际商务中心G座 上海在静安区氪空间 北京在昌平龙泽地铁站滴滴天空之城A座 我们这里是滴滴国际金融最重要的业务和技术底盘,用技术的手段将底盘能力做扎实(即保障资金安全、业务系统高可用), 国际化业务才能在更专注的去追寻业务的高速发展,不用因为技术底盘不扎实而影响业务的发展。如果你对这一块有兴趣,会得到比较快的技术成长 * 国际化业务目前发展势头良好。 * 资金安全&高可用,预防线上的资损问题和高可用问题,是国际金融业务的核心技术和底盘。 * 团队氛围开放积极,有机会与国内外各部门业务与技术进行日常交流学习。 职责要求: 1、滴滴国际化金融(IBG FinTech) 技术风险能力建设,包含应急能力、变更防御、红蓝攻防、性能容量、资金安全,构建Fintech技术风险体系; 2、参与重大项目的技术风险保障工作,对技术风险领域进行评审和分析; 3、贴身业务,挖掘业务风险,沉淀技术风险领域标杆,释放研发技术风险投入,更聚焦在业务研发上; 4、明星业务,多底盘充满了挑战和机遇,欢迎来战。