logo of aliyun

阿里云阿里云智能-数据库资源异常调度平台研发(性能监控方向)-北京

社招全职3年以上云智能集团地点:北京状态:招聘

任职要求


• 3年以上IT、互联网、云计算开发相关工作经验
• 3年以上DBA、数据库研发、引擎开发等工作经验
• 对至少 1 个数据库有广泛而深入的了解,包括但不限于OraclePostgreSQL 和 MySQL
• 在多线程高并发分布式编程、DevOps、操作系统、虚拟机、设计模式等领域有扎实认知
• 能提供高质量代码产出和文档沉淀,积极参与推动code review,提交代码前能完成自测
• 对技术领域基本原理有深刻理解,同时具备一定技术攻坚能力,能够解决单点复杂技术问题和工单(如一个较为复杂业务的性能优化、一个较低概率出现的稳定性问题)
• 具备较强的风险意识,能准确识别、暴露风险,并推动风险得到有效解决
• 具备和业务或者团队内外的上下游产品的互动能力,能够主动理解任务/需求与团队和项目其他人工作之间关系;
• 初步具备中等复杂度项目的管理能力
• 熟悉技术领域相关的前沿信息渠道,定期形成相关的前沿研究文档沉淀并能在团队中进行技术分享
• 熟悉竞…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


技术方案设计
• 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果
• 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等
技术实现
• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现
• 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等
• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署
• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等
稳定性和性能优化
• 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠
• 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能
技术预研
• 跟踪和了解最新的产品技术和趋势,根据业务需要提供最新的技术支持和建议。
技术规划
• 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
Oracle+
PostgreSQL+
多线程+
高并发+
还有更多 •••
相关职位

logo of tencent
社招TEG技术

1.研发AI驱动的智能运维系统(AIOps),基于机器学习/深度学习实现故障预测、异常检测与根因分析; 2.构建系统资源优化模型,通过AI技术进行性能与资源优化、复杂问题建模与决策与系统自治; 3.探索大模型在数据以及AI系统基础设置以及运维体系的智能化升级,如自动优化、自动化决策; 4.推动AI for System技术落地,持续跟踪领域内前沿算法与工程实践。

更新于 2025-05-20北京
logo of dingtalk
社招3年以上技术类-数据

钉钉正在全面拥抱多模态AI,正在致力于将视觉大模型、边缘智能与实时视频分析深度融合,赋能智能零售、智慧餐饮、明厨亮灶、智慧工厂、智能交通等多个行业。我们拥有强大的工程化能力和创新研发氛围,期待志同道合的技术精英加入,共同推动视觉AI落地千行百业。 我们正在寻找在视觉AI数据工程领域具备真正工程化落地经验的技术人才,你将参与视觉AI系统的数据全链路建设与优化,支撑边缘端视频AI服务的高效迭代。具体职责包括 1. 数据管理与运营 ● 数据需求分析与规划:根据算法团队的数据需求,协调整个数据闭环全流程工作(供应商对接、标注验收、测试benchmark) ○ 数据需求汇总:理解每个算法需要多少训练、测试数据,优先级分别是什么 ○ 制定数据采集、标注与质检计划,确保数据质量与交付时效 ● 数据渠道管理:外采(AIData等平台)、对接各个业务方和客户要数据 ○ 建立稳定的数据供应商合作关系,评估数据质量与成本 ○ 设计内部数据共享机制,打通业务侧真实场景数据 ● 外包工作管理:根据数据需求和优先级排工作以及工作验收 ○ 制定标注规范与验收标准,监控标注进度与质量 ○ 建立标注团队绩效评估体系 2. 数据挖掘与合成 ● 数据挖掘:根据算法需求在数据池中挖掘相关数据,或使用AIGC等手段进行数据合成 ○ 从海量视频数据中挖掘长尾场景、困难样本(如遮挡、小目标、极端光照等) ○ 设计数据筛选策略,提升训练数据的多样性与代表性 ● 数据合成与增强 ○ 利用AIGC、3D渲染、风格迁移等技术生成合成数据 ○ 设计针对边缘端场景的数据增强策略(模拟低分辨率、噪声、压缩失真等) 3. 评测开发 ● 评测体系建设:根据算法的测试需求,实现整个数据收集、脚本开发的CICD全流程 ○ 构建自动化评测平台,支持模型性能、精度、资源占用等多维度评估 ○ 实现测试数据集版本管理与可追溯性 ● 自动感知等功能的实现: ○ 开发数据质量自动检测工具(标注一致性、异常值检测) ○ 实现模型性能衰退自动告警机制 4. 数据平台&标准化工作 ● 数据平台建设:灵活应对各类数据需求 ○ 构建统一的数据管理平台,支持数据采集、标注、存储、检索、版本管理 ○ 实现数据血缘追踪,支持从原始数据到模型训练的全链路可追溯 ● 标准化规范: ○ 制定视觉AI数据标注标准与最佳实践 ○ 统一数据格式、元数据规范,降低跨项目数据复用成本 ○ 建立数据质量评估标准与SLA"

更新于 2026-01-30杭州
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。

更新于 2025-12-22上海|北京
logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。

上海