logo of ctrip

携程资深机器学习平台研发工程师(MLOps)(MJ027834)

社招全职3年以上技术团队AI & BI地点:上海状态:招聘

任职要求


1、计算机及相关专业本科及以上学历,良好的沟通和团队协作能力;
2、扎实的编程基础、良好的编程风格,熟悉多线程编程、分布式计算、网络通信、内存管理、设计模式;
3、3年以上工程研发或者基础架构经验,熟练掌握JavaC/C++PythonGolang等至少一种开发语言;
4、熟悉PyTorch深度学习框架和MLOps相关工作,了解常见深度学习算法;
5、具备分布式系统的研发经验,有优化系统性能问题的能力和经验。
具备以下一个或者多个条件者优先:
1、具有大规模分布式架构设计开发经验;
2、熟悉K8s、KubeFlow等云原生组件开发经验;
3、熟悉Milvus、FaissLlamaIndex等向量检索技术;
4、有Rag、知识库设计、文本切分、Embedding模型开发经验;

工作职责


1、参与设计并实现高可用、可扩展、分布式机器学习平台,支撑携程相关业务算法生产与高效迭代;
2、与算法工程师密切配合,理解深度学习模型研发流程,负责/参与机器学习平台的设计、开发和维护;
3、持续提升平台效率、易用性、降低算法使用成本,探索业界前沿的机器学习相关技术,设计并实现到机器学习平台中。
包括英文材料
学历+
多线程+
设计模式+
Java+
C+
C+++
Python+
Go+
PyTorch+
深度学习+
算法+
分布式系统+
系统设计+
Kubernetes+
Faiss+
LlamaIndex+
相关职位

logo of shein
社招3年以上信息技术类

1. 算法工程化支持:负责支持跨境治理和商品治理方向的算法工程化落地,包括算法服务化、模型部署、性能优化、A/B测试与监控体系搭建。 2. 系统开发与维护:基于Java与Python开发高性能、可扩展的算法平台和治理系统,保障算法稳定运行和高可用性。 3. 算法研发协同:与算法研究人员、产品经理紧密协作,推动图像理解、NLP、多模态及大模型等算法从研发到线上应用的全流程闭环。 4. 数据与质量评估:建设和维护治理效果数据采集、评估和监控体系,持续迭代优化模型与策略,驱动业务降本增效。 5. 技术方案创新:关注业界最新算法工程化与MLOps实践,推动内部平台能力升级,提升算法迭代效率。

更新于 2025-09-22
logo of thead
校招平头哥秋季202

我们正在寻找充满激情、具备技术前瞻性的应届毕业生,加入我们致力于构建智能化研发基础设施的团队。作为AI赋能的DevOps开发工程师,你将参与下一代智能化CI/CD平台与自动化运维系统的开发与优化,融合人工智能技术,推动软件研发流程的自动化、可观测性与自愈能力全面提升。 你将参与: 1. 构建智能CI/CD流水线:与研发团队紧密协作,设计并开发高可用、可扩展的持续集成与持续交付平台;探索将机器学习应用于构建失败预测、测试用例智能推荐、资源调度优化等场景,提升研发效率与交付质量。 2. 开发智能化自动化运维工具:使用Python、Go等语言开发自动化脚本与工具,实现基础设施即代码(IaC);结合AI技术,探索日志异常检测、自动化根因分析等AIOps能力,实现系统运维的智能决策与响应。 3. 打造智能监控与自愈系统:参与构建覆盖全链路的监控体系,集成Prometheus、Grafana、ELK等技术栈;引入时序预测模型与异常检测算法(如LSTM、Isolation Forest等),实现性能瓶颈预警、故障自动诊断与部分场景的自愈响应。 4. 推动DevOps与MLOps融合实践:参与机器学习模型的训练流水线(ML Pipeline)与模型部署(Model Serving)基础设施建设,探索模型版本管理、A/B测试、监控与回滚机制,助力AI能力高效落地。

更新于 2025-08-04
logo of thead
社招5年以上技术-芯片

我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的CI/CD平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计并构建高可用、智能化的CI/CD平台 主导持续集成与持续交付系统的架构演进,支持大规模分布式研发协作;探索机器学习在构建失败预测、测试用例智能推荐、资源调度优化等场景的应用,显著提升交付效率与稳定性。 2. 打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 3. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 4. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。

更新于 2025-10-09
logo of shein
社招信息技术类

1、参与国际电商的个性化算法创新优化,包括推荐、搜索等场景,最大效率地提升流量效率。 2、打造业行领先的深度学习平台能力,负责超大规模推荐召回,点击率,转化率,停留时长预估等模型优化。其中包括用户、商品的表征学习,在线学习,序列建模等技术创新。 base上海深圳南京都可以~~~

更新于 2025-04-16