
东方财富资深运维工程师(大模型方向)
任职要求
1、本科及以上学历,计算机科学及相关专业,8 年以上相关运维工作经验; 2、熟练掌握java、python、js 等语言的CICD 流水线配置及应用容器化,熟练使用gitlab、gitlab-runner、ansible 等工具; 3、熟练掌握K8S 集群的部署、维护与升级,掌握GPU on K8S 的服务编排,熟练使用k8s、harbor、helm、argocd、calico 等组件; 4、熟练使用python、golang、java 语言中的一种或多种,有较强的代码开发能力; 5、深入了解linux(3k+机器),熟练使用centos、ubuntu 等操作系统发行版,能够熟练进行系统监控、 性能分析、故障排查等操作; 6、深入了解nginx(kong/apisix)、tomcat、cdn、SLB、apollo、nacos 等中间件的使用与维护; 7、深入了解应用监控体系的建设,对应用的指标(prometheus)、日志(ELK)、链路跟踪(trace)等体系有较强的落地能力; 8、具备较好的责任心和团队合作意识,具备较强的问题解决能力。
工作职责
1、负责应用系统的日常运维操作、故障排查; 2、负责应用系统的监控体系建设、告警体系建设、稳定性体系建设; 3、负责GPU 应用的容器化编排部署、K8S 集群的部署、维护、优化; 4、负责应用系统的资源使用率优化及成本管控; 5、完成公司交办的其他工作。
1、客户现场专项技术负责人,如网络专项、数据库专项; 2、平台稳定性重大变更方案制定与实施,如性能/存储优化、底座改造等; 3、现场故障应急执行,协助原厂尽快恢复平台运行; 4、关键时刻现场保障,如客户平台隐患深度排查与治理; 5、复杂问题原因定位及解决;
1、主导SFT(监督微调)、DPO(直接偏好优化)、RL(强化学习)等大模型后训练算法的研究与开发,优化模型训练流程,提升模型在各类任务中的性能与表现,增强模型的泛化能力和适应性; 2、负责Coding、翻译、多模态等垂直领域大模型的全流程研发工作,包括需求分析、模型架构设计、数据处理、模型训练与评估,打造贴合行业场景需求的专属大模型解决方案; 3、持续跟踪行业最新技术动态,结合公司业务需求,对现有大模型算法和垂直领域模型进行优化与迭代,解决模型训练和应用过程中的技术难题,提升模型的效率和质量; 4、与数据、产品、工程等团队紧密配合,参与从数据准备、算法选型到模型部署的全链路工作,确保大模型技术在实际业务场景中的高效落地与应用; 5、将研究成果转化为实际生产力,推动大模型技术在公司产品中的应用,定期进行技术分享与交流,提升团队整体技术水平。
团队介绍:飞书是 AI 时代先进生产力平台,提供一站式工作协同、组织管理、业务提效工具和深入企业场景的 AI 能力,助力企业能增长,有巧降。 从互联网、高科技、消费零售,到制造、金融、医疗健康等,各行各业先进企业都在选择飞书,与飞书共创行业最佳实践。先进团队,先用飞书。 1、负责飞书智能伙伴在飞书套件内人机交互能力的研发工作,提供愉悦的用户体验,提升用户满意度; 2、负责飞书智能伙伴基础架构的设计及研发工作,为一方/三方业务提供通用的AIGC解决方案; 3、负责飞书智能伙伴的稳定性保障、安全合规处理、性能优化等工作; 4、负责与飞书智能伙伴相关产品等角色协同,主导业务并推动相关能力落地; 5、负责飞书智能伙伴在不同场景下效果的调优,提升用户体验。