logo of aliyun

阿里云诚云科技-资深运维工程师(大模型方向)-北方大区

社招全职4年以上诚云科技地点:北京 | 沈阳状态:招聘

任职要求


• 在中型企业或云服务提供商从事SRE、运维工具开发、客户技术服务相关工作,具备4年及以上工作经验
• 技术背景扎实,熟练掌握云集群各运维平台、云产品及监控平台使用方法,以能够快速专业定位客户问题
• 具备优秀的集群调优和trouble shooting能力,JAVA应用运维、管理能力。熟练掌握分布式系统原理,对存储、计算、流式计算中的一项或多项有深入的理解和认识
• 掌握完整的问题排查能力,能够独立解决一个或多个领域的复杂技术问题,有良好的问题处置文档书写能力
• 具备优秀的运维项目管理能力,能够在确定的问题背景下(专项推进能力),高效协同客户与内部各种资源有效解决问题。尤其在故障应急组织、协调及处置场景、客户重保护航场景能够保障现场执行的有效性

工作职责


1、客户现场专项技术负责人,如网络专项、数据库专项;
2、平台稳定性重大变更方案制定与实施,如性能/存储优化、底座改造等;
3、现场故障应急执行,协助原厂尽快恢复平台运行;
4、关键时刻现场保障,如客户平台隐患深度排查与治理;
5、复杂问题原因定位及解决;
包括英文材料
学历+
大模型+
Java+
C+++
Python+
PyTorch+
RAG+
强化学习+
分布式系统+
相关职位

logo of eastmoney
社招8年以上技术类

1、负责应用系统的日常运维操作、故障排查; 2、负责应用系统的监控体系建设、告警体系建设、稳定性体系建设; 3、负责GPU 应用的容器化编排部署、K8S 集群的部署、维护、优化; 4、负责应用系统的资源使用率优化及成本管控; 5、完成公司交办的其他工作。

logo of bytedance
社招A84868

1、主导SFT(监督微调)、DPO(直接偏好优化)、RL(强化学习)等大模型后训练算法的研究与开发,优化模型训练流程,提升模型在各类任务中的性能与表现,增强模型的泛化能力和适应性; 2、负责Coding、翻译、多模态等垂直领域大模型的全流程研发工作,包括需求分析、模型架构设计、数据处理、模型训练与评估,打造贴合行业场景需求的专属大模型解决方案; 3、持续跟踪行业最新技术动态,结合公司业务需求,对现有大模型算法和垂直领域模型进行优化与迭代,解决模型训练和应用过程中的技术难题,提升模型的效率和质量; 4、与数据、产品、工程等团队紧密配合,参与从数据准备、算法选型到模型部署的全链路工作,确保大模型技术在实际业务场景中的高效落地与应用; 5、将研究成果转化为实际生产力,推动大模型技术在公司产品中的应用,定期进行技术分享与交流,提升团队整体技术水平。

更新于 2025-06-03
logo of bytedance
社招A248014

团队介绍:飞书是 AI 时代先进生产力平台,提供一站式工作协同、组织管理、业务提效工具和深入企业场景的 AI 能力,助力企业能增长,有巧降。 从互联网、高科技、消费零售,到制造、金融、医疗健康等,各行各业先进企业都在选择飞书,与飞书共创行业最佳实践。先进团队,先用飞书。 1、负责飞书智能伙伴在飞书套件内人机交互能力的研发工作,提供愉悦的用户体验,提升用户满意度; 2、负责飞书智能伙伴基础架构的设计及研发工作,为一方/三方业务提供通用的AIGC解决方案; 3、负责飞书智能伙伴的稳定性保障、安全合规处理、性能优化等工作; 4、负责与飞书智能伙伴相关产品等角色协同,主导业务并推动相关能力落地; 5、负责飞书智能伙伴在不同场景下效果的调优,提升用户体验。

更新于 2025-03-18
logo of shein
社招3年以上信息技术类

1、参与设计和开发AIOps解决方案,帮助实现希音运维的智能化。 2、参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 3、打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。

更新于 2024-07-12