携程算法系统工程专家(MJ029738)
任职要求
1.全日制本科以上学历,计算机、软件工程及相关专业优先. 2.3年以上Java及其相关的开发经验;精通Java开发及应用框架,基本功扎实,对高并发、多线程编程、异步编程有深刻理解。 3.有大规模离散DNN模型训练和serving框架的开发和落地经验;具备丰富的离线和在线系统的性能优化实战经验;掌握GPU环境下系统性能调优的技巧。 4.具备…
工作职责
1.从事携程集团酒店业务在排序、广告、推荐系统的技术开发工作。 2.对相关的软件和模块进行日常支持, bug 修复, 发布维护等。 3.参与软件架构和设计的讨论,解决开发过程中遇到的各类技术难题,保证软件开发正常进行。 4.及时响应处理线上故障,参与互联网大数据与AI工程开发工作。
我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的Devops平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 2. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 3. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。

1、 硕士及以上学历,计算机、车辆工程、电子工程、机器人等相关专业; 2、有3年以上自动驾驶、ADAS或AD产品系统开发和应用经验,城区NOA经验优先; 3、对于问题定义,分析有着非常强的能力,具有结构化、系统化思维; 4、对于自动驾驶大规模量产有着兴趣; 5、快速学习的能力,具有前沿的技术洞察力和前瞻视野; 6、良好的团队合作能力,沟通能力和问题解决能力。
团队介绍:我们是kwaipilot团队,负责快手自研KAT大语言模型的训练及开发。快手KAT系列模型编码能力在多个相关benchmark上的效果位居全球top3。主要工作方向包括: 1、通过算法创新与系统工程,刷新Agent的能力边界,效果达到世界领先水平; 2、专注于大语言模型(LLM)的前沿技术研究与技术落地,包括但不限于RL,Agent等方向; 3、负责大规模训练的算法-基建联合优化。
工程岗位的职责包括以下至少一个或多个方向: 1. 具身机器人应用解决方案研发 (1)参与多模态/具身智能机器人在真实场景中的应用方案设计、系统集成与验证。 (2)搭建端到端具身机器人任务pipeline,包括感知、理解、规划、控制、执行等模块的工程化实现。 (3)推动具身智能大模型能力在机器人实际任务中的落地优化(如操作、导航、交互等)。 2. 具身大模型数据采集与处理 (1)负责机器人数据采集系统搭建,包括传感器标定、采集流程、数据质量控制与自动化工具链。 (2)建设具身大模型训练数据pipeline:数据清洗、切分、标注、同步、增强、格式转换等工程化流程。 (3)参与构建多模态数据集(视频、RGB-D、触觉、关节状态、语言指令等)。 3. 具身大模型云端训练与推理优化 (1)基于GPU/加速器的训练平台优化具身大模型训练性能(并行策略、数据流优化、算子优化)。 (2)负责推理引擎优化,包括模型裁剪、编译器优化、图优化、缓存管理、多线程并发调度等。 (3) 参与构建具身智能模型的训练与推理服务基础设施(MLOps、分布式训练、数据版本管理等)。 4. 端侧模型量化部署与优化 (1)主导端侧模型的压缩、量化(INT8/FP8/混合精度等)、剪枝、蒸馏等部署优化工作。 (2)熟悉ONNXRuntime、TensorRT、TFLite、NPU/DSP编译工具链,进行端侧加加速与算子调优。 (3)推动具身大模型在机器人嵌入式/边缘计算平台上的高效部署。 5. 机器人操作系统与系统优化 (1)优化机器人操作系统(ROS2、RTOS、Linux)性能,包括实时性、通信延迟、资源调度、驱动层稳定性等。 (2)推动机器人软硬件协同优化,包括传感器驱动、控制链路优化、系统级profiling/debugging。 (3)支撑机器人任务的稳定运行与系统级可靠性优化。