百度多模态算法工程师(J83376)
社招全职TPG地点:北京 | 上海 | 深圳状态:招聘
任职要求
-掌握多模态和计算机视觉算法,并在如下一个或多个相关方向有深入研究:多模态大模型、开放域目标检测、大模型小型化等 -熟悉掌握C/C++、脚本语言编程(如Python、Shell等)、常用深度学习框架(例如:PaddlePaddle等) -具…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-从事文本-图像、文本-视频等多模态算法研发和优化,研发业界领先、世界一流的多模态技术 -推进多模态内容理解、多模态内容生成等前沿多模态技术的创新落地,提升应用效果和性能 -负责多模态技术产品、系统的研发工作,满足百度重点产品业务的规模化使用需求 -以行业领先为目标,将技术创新推向亿万用户
包括英文材料
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
C+
https://www.freecodecamp.org/chinese/news/the-c-beginners-handbook/
本手册遵循二八定律。你将在 20% 的时间内学习 80% 的 C 编程语言。
https://www.youtube.com/watch?v=87SH2Cn0s9A
https://www.youtube.com/watch?v=KJgsSFOSQv0
This course will give you a full introduction into all of the core concepts in the C programming language.
https://www.youtube.com/watch?v=PaPN51Mm5qQ
In this complete C programming course, Dr. Charles Severance (aka Dr. Chuck) will help you understand computer architecture and low-level programming with the help of the classic C Programming language book written by Brian Kernighan and Dennis Ritchie.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
脚本+
[英文] Scripting language
https://en.wikipedia.org/wiki/Scripting_language
https://zhuanlan.zhihu.com/p/571097954
一个脚本通常是解释执行而非编译。脚本语言通常都有简单、易学、易用的特性,目的就是希望能让程序员快速完成程序的编写工作。
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
还有更多 •••
相关职位
社招3年以上核心本地商业-点
1.利用计算机视觉和人工智能技术,改进点评笔记、评价等多个点评创作产品的创作体验。 2.参与研发以计算机视觉和人工智能技术为核心的创新型内容玩法。 3.探索MLLM,LLM,VLM等相关算法前沿,应用于业务并解决实际业务问题。 4.负责对业务场景下相关技术问题进行分析、算法设计和上线,全面参与并推动各环节的高效运行,以实现持续的业务价值提升。 5.研究并开发智能Agent系统,优化用户与AI系统的交互体验。
更新于 2025-12-02北京|上海
社招3-5年算法开发岗
1. 构建基于计算机视觉 + VLM/MLLM 的容器与商品语义理解体系,融合图像、点云与文本信息,提高复杂 SKU 识别与定位鲁棒性。 2. 设计检测/分割 + 3D 点云融合网络,实现多品混放场景的实例分割与 6D 抓取点预测。 3. 对 LLaVA、Qwen2-VL、InternVL2.5 等多模态大模型进行指令微调,支持机器人自然语言任务下达与动态规划。 4. 负责相机、雷达联合标定,多传感器融合(RGB-D + 点云 + 力矩传感器)。 5. 搭建自动标注与主动学习流水线,建设数据飞轮。 6. 关注行业最新多模态技术,快速验证并落地仓储场景。
更新于 2025-06-10北京
社招TEG技术
1.负责垂直场景多模态大模型研发,包括图文、视频、音频等多个模态的预训练和SFT训练,探索合成数据在多模态训练上的应用; 2.负责大模型安全、内容治理、电商等多场景业务的内容理解,包括多模态表征、图文/视频意图理解、相同/相似判断、自动问答等; 3.负责跟踪和研究大模型前沿问题,并应用于解决实际的业务痛点。
更新于 2025-04-16北京