阿里云阿里云智能-阿里云百炼产品专家-北京/杭州
任职要求
1. 硕士及以上学历,泛计算机专业,3年以上云计算产品/AI领域产品经验,有开发者工具、AI平台类产品产品经验者优先。 2. 了解大模型以及Agent的基本技术栈,对AI技术有浓厚兴趣,具备一定…
工作职责
负责阿里云百炼平台产品设计和开发建设工作: 1. 需求分析与产品规划 (1)深入调研开发者、内外部企业客户及行业需求,深入理解各种模型能力和云服务,定义大模型开发平台的核心功能(如模型服务、工作流、Prompt工程、RAG、Agent框架等),并可以基于开发平台构建 AI 效果领先的垂直场景/行业解决方案。 (2)制定所负责产品或模块的 Roadmap,平衡技术前瞻性与产品落地节奏。 2. 产品全生命周期管理 (1)主导功能设计,输出PRD、原型及交互文档,推动算法、工程团队高效交付,协同运营、销售等团队应对和总结客户需求。 (2)负责产品上线后的迭代优化,基于用户反馈和数据洞察持续提升产品体验。 3. 跨团队协作与生态建设 (1)协同内部销售、运营、研发团队,以及外部开发者和客户,推动阿里云百炼平台实现业务目标和开发者生态建设,提升平台活跃度与开发者粘性。 4. 行业洞察与竞争分析 (1)跟踪国内外大模型平台产品动态,制定差异化竞争策略。
1. 负责百炼Agent应用层infra对接阿里云的建设,包括AgentScope运行时以及工具沙箱和阿里云云资源和云服务的对接、Agent部署、和算法适配。 2. 负责百炼Agent在阿里云和企业场景效果的调优。 3. 从阿里云数据源开始,为Agent服务的Data Connector体系的设计和建设。 4. 形成系统的Agent评测体系,沉淀为Reward Model. 5. 负责Agent RL/Tuning相关的算法和工程链路、数据反馈链路的构建。 6. 负责更加通用的Agent调优机制的设计,融入百炼Agent智能体创建流程。 7. 负责阿里云或者企业场景中相关平台算法feature的落地。
1. 负责百炼专属版大模型AI Infra产品定义、设计及商业化落地; 2. 制定产品策略以及商业策略,以业务成功为导向,协同研发工程师,售前架构师, 产品运营等多角色共同努力达成业务目标; 3. 深刻理解客户业务和场景需求,追踪行业发展趋势及技术发展动态,规划产品演进路径及迭代,保持具有持续产品力竞争优势; 4. 追踪标杆客户,确保技术可行性,以及对产品演进的持续反馈,沉淀最佳实践,标杆项目案例; 5. 收集客户需求,结合技术理解和研判,推动产品功能升级迭代,提升产品市场竞争力和市场占有率。
1. 大模型生命周期管理 a)上下架流程管理:负责大模型API产品的上下架全流程,包括产品信息录入、配置管理、文档更新等,确保流程符合公司标准和市场要求。 b)生命周期设计:针对大模型产品特点设计模型版本的上下架策略,保障产品在生命周期内的高质量管理。 2. 模型API定义与优化 a)API设计与优化:负责大模型API接口的定义与优化,确保设计合理、高效且易于使用。 b)性能与功能改进:与研发团队紧密合作,持续改进API性能和功能,满足客户需求。 3. 性能SLA定义与监控 a)SLA标准制定:制定大模型API服务的性能SLA标准,涵盖可用性、响应时间、吞吐量等关键指标。 b)性能监控与问题处理:监控API服务的实际性能,确保服务符合SLA标准,及时处理性能问题。 4. 产品供应管理 a)供应体系管理:管理大模型API产品的供应体系,协调资源分配,确保服务的稳定性和可靠性。 b)资源调度与风险处理:与供应链团队合作,优化资源调度,处理供应过程中的问题和风险。 5. 客户支持与反馈 a)客户支持:提供客户支持,解答客户关于API使用、性能和定价等问题。 b)需求分析与反馈:收集客户反馈,分析客户需求,为产品优化和功能改进提供依据。 6. 竞品分析与策略制定 a)竞争分析:定期对国内外主要竞争对手在相关领域的战略布局、产品特性、市场表现及客户评价进行全面调研和深度分析。 b)竞争力挖掘及落地:挖掘竞争优势与短板,基于竞争分析提出针对性的产品竞争力提升计划。
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。 3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。 5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。