夸克智能信息-算法专家-多模态智能体
任职要求
1. 计算机科学、人工智能、机器学习或相关领域的硕士或博士学位; 2. 在多模态、计算机视觉、NLP、Agent、机器学习等一个或多个领域有较深入的研究; 3. 具有出色的分析、解决问题的能力,能深入解决大模型训练、应用存在的问题,有自主探索解决方案的能力者; 4. 能够积极创新, 乐于面对挑战, 负责敬业,优秀的团队合作精神,一起探索新技术,推进技术进步。 加分项: 1. …
工作职责
1. 探索研究多模态理解、计算机视觉、大语言模型,GUI agent等前沿技术; 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,探索面向真实环境的多模态智能体多轮强化学习,提升大模型能力; 3. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化。
负责面向真实业务场景的视频分析 Agent 算法研发,围绕实时视频理解与离线长视频复杂任务分析两大方向,构建具备感知、记忆、规划、推理与工具调用能力的多模态智能系统。 岗位职责 负责实时视频分析 Agent研发,融合 CV、VLM、Omni/多模态大模型等能力,服务于工业质检、巡检、SOP 合规、Streaming Video 交互等场景。 设计并优化面向视频流场景的长短期记忆机制、事件检测、异常告警与状态跟踪能力,提升实时性、稳定性与准确率。 负责通用/专用视觉模型在垂直场景中的微调、适配与性能优化,包括检测、识别、时序理解、多模态问答等任务。 负责离线长视频分析 Agent能力建设,提升模型在复杂任务中的自主拆解、规划、多步推理、细粒度分析与结果归因能力。 基于 SFT、RL/RLHF、DPO、Agentic RL 等后训练方法,提升大模型在Planning、Reasoning、Function Calling、RAG、数据洞察等方面的能力。 构建视频分析 Agent 的工具使用体系,支持如 crop_video、zoom-in、片段重采样、目标聚焦、证据回溯等能力,形成“观察—推理—行动—验证”闭环。 设计高质量训练数据与评测体系,持续提升长视频复杂任务上的准确率、鲁棒性、可解释性与泛化能力。 与产品、工程、业务团队协作,推动算法方案在真实场景中的落地与迭代。
1. 负责大语言模型以及多模态大模型的预训练、精调等研发及落地; 2. 负责大模型智能体记忆、规划、工具、RAG能力的研发以及大模型应用的研发。 3. 跟进大模型与强化学习技术的前沿发展,提升算法效率与性能
1.主导大模型驱动的智能体(Agent)算法研发,包括但不限于:自主决策、环境交互、多模态感知、长期记忆与持续学习等核心方向; 2.探索大模型与强化学习(RL)、规划推理(Planning)、知识图谱等技术的深度融合,提升智能体的任务泛化性与可解释性; 3.推动智能体技术在理想汽车相关场景的落地应用,解决实际业务问题。
● 作为多模态搜索算法团队的负责人,主导构建全球领先的AI驱动跨境B2B搜索引擎,帮助全球买家高效寻找优质制造工厂。 ● 带领团队攻克复杂采购需求的理解难题,支持用户通过图像、图文、Excel表格、PDF文档等多模态输入方式表达采购意图,实现端到端智能解析与语义理解。 ● 设计并落地先进的多模态融合架构,结合视觉、语言与结构化数据理解技术,提升对产品规格、工艺要求、批量参数等关键信息的精准提取能力。 ● 构建高精度、可扩展的搜索引擎匹配系统,融合语义推理、知识构建与向量检索技术,实现“所想即所得”的智能搜索体验。 ● 与产品、工程及业务团队深度协作,洞察业务需求,定义合理的技术路线图,推动技术创新与产品落地。