小鹏汽车基座模型算法实习生
实习兼职地点:北京 | 上海状态:招聘
任职要求
1、熟悉VLM核心模型的预训练、微调 (SFT/RLHF/DPO) 及性能优化,提升模型在指令遵循、推理、图文生成等任务的表现,有实际落地经验; 2、有探索并实现跨模态对齐、多模态融合等前沿算法相关经验优先,研究VLM在解决复杂任务…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
负责自动驾驶领域基座模型VLM算法研发。
包括英文材料
SFT+
https://cameronrwolfe.substack.com/p/understanding-and-using-supervised
Understanding how SFT works from the idea to a working implementation...
RLHF+
[英文] What is RLHF?
https://aws.amazon.com/what-is/reinforcement-learning-from-human-feedback/
Reinforcement learning from human feedback (RLHF) is a machine learning (ML) technique that uses human feedback to optimize ML models to self-learn more efficiently.
https://www.ibm.com/think/topics/rlhf
Reinforcement learning from human feedback (RLHF) is a machine learning technique in which a “reward model” is trained with direct human feedback, then used to optimize the performance of an artificial intelligence agent through reinforcement learning.
还有更多 •••
相关职位
实习算法与软件
1. 参与实现语音合成的训练调优等,包括正则化、多音字、韵律、口语化改写等算法研发和落地; 2. 探索大语言模型在语音合成中的应用,承接自由对话,口语化表达等场景任务,支持理想同学车机和手机功能创新。
北京
实习算法与软件
1. 负责VLA大模型的端/云基座大模型架构设计与优化、多模态融合训练策略优化; 2. 参与预训练、COT、逻辑推理、数据合成等数据建设与质量提升; 3. 负责模型轻量化能力建设,蒸馏、kvcache压缩、稀疏注意力机制设计与优化; 4. 负责基座大模型核心能力建设,逻辑推理与决策能力、代码能力等。
北京