阿里云阿里云智能-AI产品评测专家/工程师-杭州/北京
任职要求
1、计算机、人工智能、统计学、数学或相关专业,本科及以上学历,3年(工程师)或5年(专家)以上相关工作经验;
2、熟悉业界主流评测工具集和评测集,有独立设计执行评测经验;
…工作职责
1、构建科学高效的AI产品评测体系,能够识别现有评测体系的局限性,持续优化评测方法、指标和数据集; 2、熟悉评测方法论和工具链,能够搭建评测工具平台,执行评测方案并拿到评测结论; 3、具备AI模型和AI产品能力分析和迭代优化分析能力,根据评测结论提出优化建议,驱动优化落地; 4、关注业界前沿AI模型和产品发展,关注AI前沿评测方法发展,并转化为内部评测实践。
1. 负责百炼平台大模型调优与部署等AI工具链产品化落地; 2. 负责百炼平台的调优模型推理、模型评测、模型调优、模型广场等的模块的架构设计和开发工作; 3. 了解技术使用场景和优缺点,能够就复杂技术问题,提供解决方案并执行落地,同时对上下游技术团队及技术架构有完整的了解; 4. 基于业务需求和技术洞察,在调优后模型的推理服务方面,进行技术规划并落地。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的coding agent/digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)通过Large-scale Pre-training 和 Large-scaleRL来提升Code Reasoning能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务; 2. 负责Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过Scaling海量数字世界数据结合大规模合成数据,来提升Computer-Use Agent的Grouding能力。 (2)通过Long Horizon的方式进行强化训练,结合可扩展的多模态环境反馈来提升CU Agent的Reasoning的能力。
1. 参与蚂蚁星河金融AI应用设计和开发,支持大模型研发训练以及在业务场景的应用落地 2. 负责信贷/资管/金市投研/营销等场景大模型应用场景的落地建设,以及相关AI平台系统的架构设计与开发; 3. 负责大模型性能分析和进行调优,识别和解决瓶颈问题,包括不限模型微调训练和模型评测等,提升模型效果和推理速度;
我们是阿里巴巴国际数字商业集团 - Accio 工程团队,正在打造全球 B2B 电商领域首个 AI Agent 产品(www.accio.com)。 我们致力于突破传统电商的局限,利用 AI 技术重构跨境贸易的作业流——从趋势洞察、新品研发、全网寻源、多模态匹配,到商家验证。我们在做一个能够处理复杂商业逻辑、具备深度辅助决策能力的智能终端,探索技术在 B2B 复杂场景下的赋能边界。 * 构建高适应性的 Agent 交互架构: 主导设计能够动态响应 AI 推理结果的组件协议与通信机制。你需要解决当后端返回非结构化、流式(Streaming)甚至不确定的数据时,前端如何通过稳健的架构实现精准的 UI 渲染与状态管理,确保用户体验的流畅性与确定性。 * 探索“人机协同”的下一代体验: 深入参与 Agent 业务逻辑设计,负责将前沿的 AI 交互范式(如生成式 UI、多轮对话上下文管理、主动式交互)转化为可落地的工程代码,在浏览器端实现高密度的信息聚合与复杂的富交互功能。 * 建立 AI 时代的工程化标准: 负责 Agent 产品的研发效能与质量体系。面对 AI 带来的长链路延迟与随机性挑战,建设专门的端侧性能优化方案、全链路可观测性平台以及针对 AI 输出的自动化评测(Eval)机制,保障产品在极端场景下的稳定性。