
智能互联AI推理平台-AI模型推理技术专家-北京/杭州/上海
任职要求
1. 计算机/人工智能相关专业硕士及以上学历,熟练掌握C++和Python编程语言,和软件工程面向对象设计(OOP,OOD)等相关技术, 有很好的抽象能力。 2. 掌握性能优化方法论,能够快速定位系统瓶颈的原因,能够利用Roofline Model来计算IO、计算和带宽的理论极限,并用编程技术逼近极限。 3. …
工作职责
本团队涉及如下方面的工作:(工作内容可以根据候选人专业特长安排) 1. 多模态模型的推理功能开发和性能优化,包括对Qwen-3.6、Qwen-3.7、Qwen-VL、Qwen-Audio、Qwen-Omni等多模态输入/输出模型的功能支持和推理性能优化。 2. 分布式推理架构的研发,包括多机推理架构设计,P/D分离、A/F分离、VL模型分离架构、WideEP、ElasticEP等功能研发与落地。 3. 推理引擎服务化,包括推理引擎如何接入线上服务平台,自动扩缩容和可观测性的适配,以及提升线上服务稳定性。 4. NPU/GPU各类算子、kernel开发、算子融合、Compiler的开发等。
DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品,通过标准化API接口提供LLM/MLLM等大模型推理服务,致力于为AI应用开发者提供品类丰富、数量众多的模型选择,并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务,各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。 工作职责: 1、参与/负责大模型推理服务平台(MaaS)的架构设计、系统研发、产品研发等工作; 2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作,实现千亿级Token并行推理平台; 3、为内部产品线提供解决方案,协助公司内用户解决大模型应用过程中业务在平台上的使用问题。
负责阿里云产品安全能力前沿技术的探索与落地,包括但不限于以下方向: 1. AI应用安全:为阿里云内部平台及“百炼”大模型平台构建并完善AI应用所需的基础安全能力,保障AI应用从训练到推理全流程的安全性; 2. Confidential AI(机密AI):参与机密计算(Confidential Computing)基础架构及核心组件的设计、开发与运维,支持客户及内部服务实现 Confidential AI 功能。
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享