logo of quark

夸克算法工程师-强化学习

校招全职智能信息秋季2026届应届生招聘地点:北京 | 杭州状态:招聘

任职要求


1. 机器学习自然语言处理计算机视觉、语音、跨模态表征学习等相关专业的硕士生/博士生,有扎实的研发经验;
2. 熟悉常用的机器学习框架,如PyTorch 等,熟悉 Python编程语言,有强化学习训练系统、大模型训练系统及相关底层代码库的工程开发优化经验者优先;
3. 熟悉大语言模型或多模态大模型基本知识,对GPT、Claude等闭源模型以及LLaMA、Qwen等开源模型和相关多模态大模型有基础了解和上…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 开展大语言模型、多模态生成/理解大模型复杂推理能力、可信性研究和奖励模型,包括但不限于自然语言处理、视觉理解、多模态生成与理解等;
2. 开展多模态大模型后训练阶段的强化学习算法研发迭代,包括:基于人类、AI、环境反馈的强化学习算法的优化升级,覆盖规则遵循、复杂推理等多个任务的多目标强化学习训练算法研发和调优,设计并实施实验;
3. 关注和学习最新前沿研究,参与学术讨论和技术交流,撰写研究报告、技术文档或论文,鼓励在国际顶级期刊或会议上发表研究成果。
包括英文材料
机器学习+
NLP+
OpenCV+
PyTorch+
Python+
还有更多 •••
相关职位

logo of netease
社招网易游戏(互娱)

- 参与强化学习、模仿学习、进化算法的落地工作,包括但不限于智能体、平衡性测试等; - 基于强化学习、模仿学习等AI技术为游戏产品打造更强力、更多样、更拟人的AI机器人; - 参与开发强化学习训练和部署平台。

更新于 2025-06-05广州
logo of netease
社招3-5年网易游戏(互娱)

- 参与强化学习、模仿学习、进化算法的落地工作,包括但不限于智能体、平衡性测试等; - 基于强化学习、模仿学习等AI技术为游戏产品打造更强力、更多样、更拟人的AI机器人; - 参与开发强化学习训练和部署平台

更新于 2025-08-24广州
logo of antgroup
社招2年以上技术类-算法

负责构建LLM来提升客服解答准确率,进一步提升客服智能化水平和用户体验。 1. 数据构建、数据合成、指令微调、偏好对齐等; 2. 具备强化学习算法能力,特别是RLHF经验; 3. 跟踪大模型的最新进展,结合业务进行创新,并沉淀为顶会论文。

更新于 2025-08-27杭州
logo of amap
社招3年以上技术类-算法

1、负责强化学习算法的工程化实现与性能优化 2、构建可扩展的分布式训练系统,支持大规模并行训练和实验 3、优化策略网络的训练流程,提升训练效率和模型性能 4、实现前沿强化学习算法的落地应用

更新于 2025-08-04北京