logo of pinduoduo

拼多多多模态理解大模型算法工程师

社招全职技术类地点:上海状态:招聘

任职要求


1. 熟悉多模态大模型相关工作, 理解主流大模型,对模型开发中的数据制备,模型训练和调优有实践经验
2. 参与过CV或多模态理解相关项目, 有成功落地,取得…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责电商领域多模态理解算法开发, 建立商品理解等方面大模型能力, 并应用于电商业务领域
2.跟踪多模态理解领域最新技术, 优化和改进现有技术, 提升大模型的性能和效率,扩大模型的业务应用领域
3.持续关注业务领域需求,制定适配的算法支持方案,取得业务收益
包括英文材料
大模型+
机器学习+
相关职位

logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 若你对以下一个或者多个方向感兴趣均欢迎投递: 1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力,并同时优化多模态大模型的AI infra。 2)通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体,将相关能力拓展到GUI agent,VLA,以及具身智能场景中。 3)研究理解与生成统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责: 1. 多模态 pre-training:开展研究及进行实验,研究内容包括:数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training:迭代 post-training 训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的 test scaling laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。

更新于 2025-08-22北京|杭州
logo of mi
校招

1. 研发端到端全模态理解和推理大模型核心技术,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流; 2. 研发视觉理解和推理大模型核心技术,在图像理解,视频理解,视觉推理能力增强(关系推理、因果推理、常识推理),GUI屏幕感知和推理、端到端图像翻译等方向创新突破,达到业内一流; 3. 优化语音识别大模型的上下文感知能力,通过送入交互历史信息提升语音识别准确率;优化语音识别大模型的热词感知能力,通过送入相关热词提升语音识别准确率;优化语音多模态理解大模型的SpeechEncoder,提升语音理解大模型的语音理解能力和声音理解能力,包括语音内容、情感、性别、声音事件、音乐风格等;在用户跟智能体对话的过程中,检测用户的表达完整性,从而加快系统响应速度且不带来更多的误截断;在语音对话模型中,检测用户交互的对象,从而提升打断的有效性和系统交互的响应速度; 4. 端到端全模态理解和推理、视觉理解、语音理解等,建立比较广泛的业界影响力,论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等; 5. 端到端全模态理解和推理、视觉理解、语音理解等,落地在小米核心业务场景,提升核心产品竞争力和用户智能体验,包括手机(OS/小爱)、汽车、生态链等。 【课题名称】 端到端全模态理解和推理大模型研究与应用 【课题内容】 1. 研究端到端全模态理解和推理大模型的核心技术,产出突破性成果,在小米核心业务场景落地;输入文本、图像、视频、语音等模态,输出文本、语音等模态;探索全模态信息感知能力;探索全模态混合推理思维链;探索全模态思维强化; 2. 研究视觉理解和推理的核心技术和应用,包括图像理解与推理、长视频理解与推理、屏幕感知和端到端图像翻译等; 3. 研究语音理解大模型的感知关键技术,包括有效利用场景、上下文、个性化信息更好的进行音频内容的转写以及副语言信息的提取,用户表述完整性检测等,提升流式交互系统的响应速度和理解准确性等。

更新于 2025-06-25北京
logo of xiaohongshu
校招策略算法

1、负责优化小红书的多模态内容理解大模型算法,利用LLM、VLLM、Embedding、CV以及NLP相关能力,解决社区/大商业中笔记、评论、账号等多体裁的审核问题;优化小红书综合机审大模型; 2、负责包括但不限于预训练、SFT、RL、多模态表征、Agent搭建、AutoPE、RAG等,持续优化并时刻保持技术先进性,将业界SOTA模型落地并改进以获取审核业务线上收益; 3、紧密关注相关领域业界的最新进展,通过LLM/MLLM不断优化生态业务的机审能力,提高机审风险覆盖度和风险召回能力。建立并优化生态场景下的内容理解特征体系; 4、跟踪大语言模型、多模态、强化学习等算法的最前沿进展,探索其在小红书审核业务中的落地方案。

更新于 2025-11-18北京|上海|杭州
logo of xiaohongshu
校招策略算法

1、负责优化小红书的多模态内容理解大模型算法,利用LLM、VLLM、Embedding、CV以及NLP相关能力,解决社区/大商业中笔记、评论、账号等多体裁的审核问题;优化小红书综合机审大模型; 2、负责包括但不限于预训练、SFT、RL、多模态表征、Agent搭建、AutoPE、RAG等,持续优化并时刻保持技术先进性,将业界SOTA模型落地并改进以获取审核业务线上收益; 3、紧密关注相关领域业界的最新进展,通过LLM/MLLM不断优化生态业务的机审能力,提高机审风险覆盖度和风险召回能力。建立并优化生态场景下的内容理解特征体系; 4、跟踪大语言模型、多模态、强化学习等算法的最前沿进展,探索其在小红书审核业务中的落地方案。

更新于 2025-11-18北京|上海|杭州