阿里云阿里云智能-数据库资源异常调度平台研发(性能监控方向)-北京

社招全职3年以上云智能集团2025-09-22地点：北京状态：招聘

扫码手机上打开

任职要求

• 3年以上IT、互联网、云计算开发相关工作经验
• 3年以上DBA、数据库研发、引擎开发等工作经验
• 对至少 1 个数据库有广泛而深入的了解，包括但不限于Oracle、PostgreSQL 和 MySQL
• 在多线程、高并发分布式编程、DevOps、操作系统、虚拟机、设计模式等领域有扎实认知
• 能提供高质量代码产出和文档沉淀，积极参与推动code review，提交代码前能完成自测
• 对技术领域基本原理有深刻理解，同时具备一定技术攻坚能力，能够解决单点复杂技术问题和工单（如一个较为复杂业务的性能优化、一个较低概率出现的稳定性问题）
• 具备较强的风险意识，能准确识别、暴露风险，并推动风险得到有效解决
• 具备和业务或者团队内外的上下游产品的互动能力，能够主动理解任务/需求与团队和项目其他人工作之间关系；
• 初步具备中等复杂度项目的管理能力
• 熟悉技术领域相关的前沿信息渠道，定期形成相关的前沿研究文档沉淀并能在团队中进行技术分享
• 熟悉竞…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

技术方案设计
• 收集、识别、分析客户需求，并确定技术方案的目标、范围和交付成果
• 基于需求分析，进行技术可行性分析和方案评审，选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等
技术实现
• 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现
• 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等
• 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署
• 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等
稳定性和性能优化
• 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠
• 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能
技术预研
• 跟踪和了解最新的产品技术和趋势，根据业务需要提供最新的技术支持和建议。
技术规划
• 理解业务战略及重点，基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Oracle+

PostgreSQL+

多线程+

高并发+

还有更多 •••

登录查看完整学习资料

相关职位

AI for System研究员/工程师

社招TEG技术

1.研发AI驱动的智能运维系统（AIOps），基于机器学习/深度学习实现故障预测、异常检测与根因分析； 2.构建系统资源优化模型，通过AI技术进行性能与资源优化、复杂问题建模与决策与系统自治； 3.探索大模型在数据以及AI系统基础设置以及运维体系的智能化升级，如自动优化、自动化决策； 4.推动AI for System技术落地，持续跟踪领域内前沿算法与工程实践。

更新于 2025-05-20北京

钉钉-数据工程师-视觉AI数据方向

社招3年以上技术类-数据

钉钉正在全面拥抱多模态AI，正在致力于将视觉大模型、边缘智能与实时视频分析深度融合，赋能智能零售、智慧餐饮、明厨亮灶、智慧工厂、智能交通等多个行业。我们拥有强大的工程化能力和创新研发氛围，期待志同道合的技术精英加入，共同推动视觉AI落地千行百业。我们正在寻找在视觉AI数据工程领域具备真正工程化落地经验的技术人才，你将参与视觉AI系统的数据全链路建设与优化，支撑边缘端视频AI服务的高效迭代。具体职责包括 1. 数据管理与运营 ● 数据需求分析与规划：根据算法团队的数据需求，协调整个数据闭环全流程工作（供应商对接、标注验收、测试benchmark） ○ 数据需求汇总：理解每个算法需要多少训练、测试数据，优先级分别是什么 ○ 制定数据采集、标注与质检计划，确保数据质量与交付时效 ● 数据渠道管理：外采（AIData等平台）、对接各个业务方和客户要数据 ○ 建立稳定的数据供应商合作关系，评估数据质量与成本 ○ 设计内部数据共享机制，打通业务侧真实场景数据 ● 外包工作管理：根据数据需求和优先级排工作以及工作验收 ○ 制定标注规范与验收标准，监控标注进度与质量 ○ 建立标注团队绩效评估体系 2. 数据挖掘与合成 ● 数据挖掘：根据算法需求在数据池中挖掘相关数据，或使用AIGC等手段进行数据合成 ○ 从海量视频数据中挖掘长尾场景、困难样本（如遮挡、小目标、极端光照等） ○ 设计数据筛选策略，提升训练数据的多样性与代表性 ● 数据合成与增强 ○ 利用AIGC、3D渲染、风格迁移等技术生成合成数据 ○ 设计针对边缘端场景的数据增强策略（模拟低分辨率、噪声、压缩失真等） 3. 评测开发 ● 评测体系建设：根据算法的测试需求，实现整个数据收集、脚本开发的CICD全流程 ○ 构建自动化评测平台，支持模型性能、精度、资源占用等多维度评估 ○ 实现测试数据集版本管理与可追溯性 ● 自动感知等功能的实现： ○ 开发数据质量自动检测工具（标注一致性、异常值检测） ○ 实现模型性能衰退自动告警机制 4. 数据平台&标准化工作 ● 数据平台建设：灵活应对各类数据需求 ○ 构建统一的数据管理平台，支持数据采集、标注、存储、检索、版本管理 ○ 实现数据血缘追踪，支持从原始数据到模型训练的全链路可追溯 ● 标准化规范： ○ 制定视觉AI数据标注标准与最佳实践 ○ 统一数据格式、元数据规范，降低跨项目数据复用成本 ○ 建立数据质量评估标准与SLA"

更新于 2026-01-30杭州

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2025-12-22上海|北京

AI平台开发工程师-数据方向-机器学习平台

社招3年以上机器学习平台

【业务介绍】作为公司统一的机器学习平台团队，负责调度公司所有模型训练与推理资源；基于自建的训推引擎，构建公司统一的机器学习平台，为公司所有算法同学（稀疏 & 稠密，含 LLM）模型迭代提供端到端的一站式服务；包括数据生产，模型训练，模型上线，特征管理，模型测试，资源管控等一系列能力。【岗位职责】 1、负责机器学习链路，离在线数据相关的开发工作，包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作；包括样本平台，特征平台，训练平台，推理平台等AI应用后台建设等； 3、研究分析业内AI平台产品，优化技术方案，改进产品功能，完善产品体验。

上海