logo of didi

滴滴用户平台部-算法实习生

实习兼职算法类地点:北京状态:招聘

任职要求


- 计算机/AI相关专业本科或硕士在读,至少可实习 3 个月、每周至少3 天。
- 熟练Linux 系统常用命令、PythonPyTorchSQL
- 熟悉 NLP 基本任务、深度学习强化学习
- 熟悉大模型基本原理,有大模型训练经验。
- 对 RLHF、奖励模型等有浓厚兴趣,自主钻研。

加分项:
- 7b以上LLM训练经验
- 熟悉典型训练框架,如:LLaMA-FactoryUnsloth、VeRL、Deepspeed、Megatron-LM等
- NLP顶会论文优先,密切跟进Post-Training方向最新论文
- 对语言模型、大模型、AGI、人机交互等兴趣浓厚

工作职责


大模型训练工程师

工作内容:
深入参与垂类场景Agent大模型的预训练和后训练,构建领域对话大模型。

具体内容:
1. 支持预训练和后训练任务,并在导师指导下完成 PPO/DPO/GRPO 等算法应用及改进,支持大模型分布式训练实验。
2. 协助构建奖励模型:偏好数据清洗、特征工程、鲁棒性测试,跟踪实验指标及可视化分析。
3. 驱动效果闭环:搭建离线多维度指标与在线 A/B 体系,打造自迭代数据飞轮。
包括英文材料
Linux+
Python+
PyTorch+
SQL+
NLP+
深度学习+
强化学习+
大模型+
LLaMA-Factory+
Unsloth+
相关职位

logo of didi
实习算法类

Agent开发工程师 工作内容: 智能客服场景的Agent设计、开发,提升机器人服务质量、效率。 具体内容: 1.针对单轮、多轮任务设计合适的Agent架构(如ReACT/Reflexion/Multi-Agent) 2.根据反馈数据,优化Agent设计模式,持续进化。 3.基于Bad Case训练模型,提升Agent的理解、思考、决策、工具调用能力

更新于 2025-08-04
logo of didi
实习技术类

【大模型训练实习生】 工作内容: 深入参与垂类场景Agent大模型的预训练和后训练,构建领域对话大模型。 具体工作: 1.支持预训练和后训练任务,并在导师指导下完成 PPO/DPO/GRPO 等算法应用及改进,支持大模型分布式训练实验。 2.协助构建奖励模型:偏好数据清洗、特征工程、鲁棒性测试,跟踪实验指标及可视化分析。 3.驱动效果闭环:搭建离线多维度指标与在线 A/B 体系,打造自迭代数据飞轮。

更新于 2025-08-05
logo of didi
实习技术类

工作内容: 深入参与构建大模型 Agent 高质量数据合成飞轮,构建多维度自动评估体系链路闭环。 具体工作: 1.针对业务场景设计基于LLM大模型的多轮对话数据合成链路,构建高质量数据合成pipeline以及线上自进化数据飞轮。 2.基于业务场景抽象用户画像,设计可插拔的画像策略,实现支持多轮对话策略的自动交互,兼顾可控性与多样性。 3.参与设计建设自动化评估,实时监控数据质量与模型效果。

更新于 2025-08-04
logo of baidu
实习TPG

-探索和实现最前沿的深度学习算法,丰富开发套件算法和功能 -优化现有算法并支持在业务中落地,丰富相关应用案例 -从模型角度发现框架性能、易用性等问题,能提出优化方案并加以改进 -支持和解决用户使用框架及套件中的问题

更新于 2022-07-15