小米高级算法工程师(工业视觉)
社招全职5年以上A34813地点:北京状态:招聘
任职要求
1. 教育背景与经验 - 计算机、人工智能、自动化、数学、电子信息等相关专业,硕士及以上学历; - 5年以上AI算法研发经验,其中至少1-2年专注于大模型(LLM或VLM等)相关领域的研发。 2. 工程与编程能力: - 精通Python编程,熟练掌握PyTorch/TensorFlow/JAX等至少一种主流深度学习框架,能快速复现前沿算法; - 具备良好的软件工程素养和代码规范。 3. 算法能力: - 熟悉CLIP、SAM、QWEN系列等多模态模型的原理和应用,具备处理图像-文本对齐、视觉问答(VQA)、图像描述生成等任务的实践经验; - 精通Agent的设计理念和技术栈,有使用LangChain、LlamaIndex或自研框架构建基于知识库的智能Agent(如RAG系统)的完整项目经验; - 具备丰富的大模型微调(Fine-tuning)实战经验,熟练掌握LoRA、QLoR…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 多模态大模型研发与落地: - 负责工业视觉质检领域多模态大模型的构建、训练与优化,解决传统CV模型在复杂背景、小样本、零样本缺陷的识别率低的问题。 - 研究并应用多模态融合技术(如图像+文本描述、图像+参数),提升模型对工业缺陷的语义理解与泛化性能,同时实现工业缺陷的自然语言描述生成和智能问答。 - 搭建面向大模型的质检数据生产与清洗的pipeline,包括高质量图文对齐数据的构建、合成数据生成等,并设计模型效果评估体系,驱动算法的持续迭代与优化。 - 针对工业场景的实时性与高精度要求,负责大模型的轻量化部署与推理加速(如量化、剪枝、蒸馏)。 2. 质检Agent智能体构建: - 负责设计并主导研发面向工业视觉质检场景的智能Agent,具备多模态理解能力,能够融合图像、文本(如工艺标准SOP)、传感数据等信息,实现对缺陷的自动化判定、描述、归因及溯源。 - 构建面向质检场景的Agent工作流(Workflow),包括任务规划(模型自动择优等)、节点调用(训练任务的全流程、工具搭建业务流等等)、结果反馈。 - 负责构建并维护质检领域的专业知识库(RAG),结合向量数据库技术,提升Agent在特定缺陷场景下的准确性和可解释性。 3. 大模型微调与优化: - 针对工业质检的小样本、长尾分布问题,设计并实施高效的大模型微调策略(如LoRA、P-Tuning等),提升模型在特定质检任务上的识别检出能力。 - 持续跟进多模态大模型、AIGC、Agent等领域的最新前沿技术进展,并引领团队进行技术预研和创新,探索其在工业缺陷检测中的应用潜力。
包括英文材料
学历+
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
JAX+
https://docs.jax.dev/en/latest/notebooks/thinking_in_jax.html
JAX is a library for array-oriented numerical computation, with automatic differentiation and JIT compilation to enable high-performance machine learning research.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
LangChain+
https://python.langchain.com/docs/tutorials/
New to LangChain or LLM app development in general? Read this material to quickly get up and running building your first applications.
https://www.freecodecamp.org/news/beginners-guide-to-langchain/
LangChain is a popular framework for creating LLM-powered apps.
还有更多 •••
相关职位
社招5年以上
一、核心技术研发 1、主导视频大模型全周期开发(预训练/微调/推理),设计高效模型架构(如Diffusion/Transformer混合结构),优化训练策略与超参数调优; 2、突破多模态对齐技术难点,开发文本/图像/视频跨模态生成算法,提升生成内容的时序连贯性与物理合理性; 3、构建分布式训练框架,实现显存优化、梯度压缩等加速技术,完成千卡级集群的高效资源调度。 二、技术战略与小组统筹 制定文生视频(Text-to-Video)技术路线图,攻克高分辨率(4K+)、长视频(>1分钟)生成等工业级难题,能够统筹算法攻坚小组,协调模型研发、工程部署与产品落地的全流程协作。 三、行业前沿洞察 跟踪全球AIGC技术趋势(如Sora、Runway ML等),保持技术领先性,制定专利与论文策略。
更新于 2025-09-19长沙
社招3年以上核心本地商业-业
1.负责大规模分布式深度学习、强化学习等算法的研发和优化,挖掘海量用户/商家数据,建模用户兴趣,精准洞察预估用户&店铺关系,提升外卖/零售/餐饮/综合等业务外投的CTR/CVR等核心指标; 2.负责站外多业务混排、对外报价等方向的机制设计和算法调优,探索O2O场景下外投投放机制方法; 3.参与探索前沿广告推荐、NLP领域、视觉理解等前沿技术,洞察业务问题进行模型创新并落地到业务中。
更新于 2025-01-17成都
社招5年以上智能与信息技术
1. 负责计算机视觉深度学习算法的开发与性能提升,负责VLM大模型的应用开发与工程化部署应用,涉及的主要问题包括但不限于视频智能分析中目标检测、行为识别等功能模块的开发、迭代与落地;表面缺陷检测算法的开发、优化与落地等; 2. 参与计算机视觉及人工智能领域的前沿技术探索,结合业务场景进行创新,推动新技术在业务场景的落地应用。
北京