理想汽车基座模型-多模态大模型算法工程师-北京
任职要求
1.博士学历,NLP、多模态、计算机等相关专业,紧跟行业及学界进展; 2.扎实的算法基础,熟悉预训练、RL、模型架构设计与优化、对技术探索、开发及应用有热情; 3.熟悉Python编程语言,熟悉PyTorch深度学习框架并有实际项目经验; 具备以下条件优先: 1.在NeurlPS/ICLR/ICML/ACL/EMNLP/CVPR/ICCV等会议或期刊上发表过论文者优先。 2.在业内知名大模型团队有过1年以上实习经验,深度参与大模型算法研发者优先 3.有LLM、VLM、ALM、VLA架构优化以及Scaling Law相关经历者优先。
工作职责
1.多模态端到端大模型架构探索,包括多模态编码器、多模态离散tokenizer、理解与生成统一模型架构、VLA模型架构研发、稀疏注意力高效推理架构设计等 2. 多模态端到端大模型训练范式研究,包括预训练、后训练、强化学习提升模型能力,建设自动推理、自动任务规划、工具调用的Agent能力,以及提升多模态生成和行动生成的端到端生成效果 3. 负责多模态端到端大模型的Scaling Law建设 4. 参与多模态端到端模型的探索与创新研究,打造技术影响力。
1.负责多模态融合算法、多模态大语言模型的技术探索和创新; 2. 负责大语言模型以及多模态大模型的预训练、精调等研发及落地; 3. 探索Agent在复杂任务中的应用,实现基于LLM的复杂任务在软件研发领域场景的应用落地。
1、打造最适合短视频、直播、搜索推荐、电商、创作者玩法的多模态大模型,为快手的各项业务提供基座模型技术支持。多模态技术是通向AGI的重要方法和里程碑,期待和更多对多模态技术感兴趣的同学一起打造真正带来价值的模型算法技术; 2、深度探索多模态大模型的多阶段预训练、监督微调和RLHF等技术,打造业界第一梯队的多模态大模型,赶超GPT-4o、Gemini Pro等闭源模型的实际使用效果; 3、图片、语音、音频和视频多种模态信号的高效处理方式探索,提供对各类信号最精准的理解能力; 4、混合专家、蒸馏剪枝等兼顾模型性能和效果的技术探索。
我们是谁 快手本身是一家以内容为主的公司,在大模型技术蓬勃发展的时代,多模态能力是快手非常重视的一个方向。目前团队主要的工作重心在视频理解和图片理解,包括短视频、长视频、直播、交互式视频等,主要的任务形态以Caption和QA为主,同时在生成类场景发挥着重要的作用。团队的主要工作围绕在数据组织、模型设计、训练范式设计上,会推出基座模型给到下游业务进行SFT,部分业务是紧密合作的。模型迭代会以业务反馈作为牵引,不断提升在自建指标和公开指标上的成绩。 职位描述 1、探索多模态理解任务上的自研数据构建、模型架构和训练范式,打造业界第一梯队的多模态大模型; 2、搭建更有针对性的评测,用于真实反映模型的实用效果,为模型训练提供指导方向; 3、强化Caption和QA能力,在图片/视频的理解/描述能力上赶超GPT4o、Gemini Pro等闭源模型的实际使用效果; 4、洞察业务需求,能够以业务目标为牵引持续迭代模型,在支持好业务的同时,发掘多模态的独立出圈应用玩法; 5、探索技术边界,将有特点的技术成果进行学术转化,在顶尖学术会议上发表论文,并保持与业界专家的交流。