百度多模态算法工程师(J82286)
社招全职ACG地点:北京状态:招聘
任职要求
-本科及以上学历,计算机、模式识别、人工智能、软件工程相关专业优先 -熟练掌握PyTorch、TensorFlow、PaddlePaddle等至少一种主流深度学习框架,…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-负责落地LLM在内容理解场景中的应用,负责文本内容理解与审核场景端到端效果优化与提升 -重点研究以小尺寸大语言模型相关的技术,包括但不限于数据建设、指令微调、模型优化、模型蒸馏等 -提升数据构建合成、模型推理等能力;构建大小模型融合的推理系统,提升模型在理解与审核场景中的效果 -持续探索跟进学术与业界前沿进展,探索包括但不限于CoT、RAG、强化学习微调等能力并落地
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
学历+
模式识别+
https://www.mathworks.com/discovery/pattern-recognition.html
Pattern recognition is the process of classifying input data into objects, classes, or categories using computer algorithms based on key features or regularities.
https://www.microsoft.com/en-us/research/wp-content/uploads/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf
Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science.
还有更多 •••
相关职位
社招3年以上核心本地商业-点
1.利用计算机视觉和人工智能技术,改进点评笔记、评价等多个点评创作产品的创作体验。 2.参与研发以计算机视觉和人工智能技术为核心的创新型内容玩法。 3.探索MLLM,LLM,VLM等相关算法前沿,应用于业务并解决实际业务问题。 4.负责对业务场景下相关技术问题进行分析、算法设计和上线,全面参与并推动各环节的高效运行,以实现持续的业务价值提升。 5.研究并开发智能Agent系统,优化用户与AI系统的交互体验。
更新于 2025-12-02北京|上海
社招3-5年算法开发岗
1. 构建基于计算机视觉 + VLM/MLLM 的容器与商品语义理解体系,融合图像、点云与文本信息,提高复杂 SKU 识别与定位鲁棒性。 2. 设计检测/分割 + 3D 点云融合网络,实现多品混放场景的实例分割与 6D 抓取点预测。 3. 对 LLaVA、Qwen2-VL、InternVL2.5 等多模态大模型进行指令微调,支持机器人自然语言任务下达与动态规划。 4. 负责相机、雷达联合标定,多传感器融合(RGB-D + 点云 + 力矩传感器)。 5. 搭建自动标注与主动学习流水线,建设数据飞轮。 6. 关注行业最新多模态技术,快速验证并落地仓储场景。
更新于 2025-06-10北京
社招TEG技术
1.负责垂直场景多模态大模型研发,包括图文、视频、音频等多个模态的预训练和SFT训练,探索合成数据在多模态训练上的应用; 2.负责大模型安全、内容治理、电商等多场景业务的内容理解,包括多模态表征、图文/视频意图理解、相同/相似判断、自动问答等; 3.负责跟踪和研究大模型前沿问题,并应用于解决实际的业务痛点。
更新于 2025-04-16北京