百度多模态大模型算法工程师(J83573)
社招全职MEG地点:北京状态:招聘
任职要求
-包含但不限于计算机、信息工程、模式识别、人工智能、自动化、软件工程、电子工程、统计学、应用数学、物理学/量子计算、信息安全、信号与信息处理等专业的博士和优秀硕士 -精通Transformer/CLIP/Diffusion等技术,具备多模态预训练实战经验(图文/视频/3D等领域),熟悉MoE、模型蒸馏,深入理解对比学习、提示工程、RLHF等技术原理 -对新技术和新算法保持敏锐的触觉,具备快速学习和应用的能力;良好的沟通能力、团队合作精神以及较强的问题解决能力 -主导过大模型训练优化或模型调优,兼具工程实现能力与理论推导功底 -顶级会议论文(CVPR/ACL/ICML等)或开源项目核心贡献者优先
工作职责
-研发突破性多模态大模型架构,探索视觉-语言-语音-3D跨模态融合新范式 -优化大模型训练策略,攻克模态对齐、知识蒸馏、强化学习等技术难题 -推动前沿技术产品化落地,在百度网盘、百度文库、TeraBox、橙篇等产品场景实现价值闭环,改变十亿级用户产品体验 -持续跟踪ICLR/NeurIPS/CVPR等顶会最新进展,保持技术领先性 -深入挖掘产品潜在价值和需求,通过技术创新推动产品成长
包括英文材料
模式识别+
https://www.mathworks.com/discovery/pattern-recognition.html
Pattern recognition is the process of classifying input data into objects, classes, or categories using computer algorithms based on key features or regularities.
https://www.microsoft.com/en-us/research/wp-content/uploads/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf
Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science.
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
CVPR+
https://cvpr.thecvf.com/
ICML+
https://icml.cc/
相关职位
社招5年以上A231501
1. 负责生态链产品大模型算法研发,主要是基于基座模型的finetune和应用 2. 负责大模型算法落地应用,包括IPC、智能门锁、智能音箱等场景,与产品和工程紧密配合,将大模型算法在能产生用户价值的场景中进行落地 3. 大模型算法部署和小型化研究,适配低成本和低算力设备 4. 可能会参与传统深度学习模型的研发和落地
更新于 2024-10-28
校招J1007
1、打造最适合短视频、直播、搜索推荐、电商、创作者玩法的多模态大模型,为快手的各项业务提供基座模型技术支持。多模态技术是通向AGI的重要方法和里程碑,期待和更多对多模态技术感兴趣的同学一起打造真正带来价值的模型算法技术; 2、深度探索多模态大模型的多阶段预训练、监督微调和RLHF等技术,打造业界第一梯队的多模态大模型,赶超GPT-4o、Gemini Pro等闭源模型的实际使用效果; 3、图片、语音、音频和视频多种模态信号的高效处理方式探索,提供对各类信号最精准的理解能力; 4、混合专家、蒸馏剪枝等兼顾模型性能和效果的技术探索。
更新于 2025-08-15
社招
1. 探索研究多模态理解、生成式AI、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术; 2. 探索大规模/超大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、模型优化;提升数据合成、Scalable Oversight、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3. 探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建GUI/游戏等虚拟世界的通用多模态Agent; 4. 利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。
更新于 2025-03-04