logo of soul

Soul APP多模态大模型负责人

社招全职5年以上地点:上海 | 北京状态:招聘

任职要求


1. 高阶人才,人工智能、计算机相关专业硕士及以上学历
2. 5年以上工作经验,有至少5人的带队管理经验,有带过AI系统性技术项目经验,深度和宽度兼顾
3. 熟练掌握pytorch,熟练掌握大模型基础原理,必须具备大模型研发经验,至少熟悉NLP/CV/语音至少两个领域的技术原理,有过多模态落地经验
4. 具备前瞻性的技术规划能力,了解国内外行业动态,有出色的沟通组织能力、有优秀的自驱力团队合作精神
加分项
1. 博士优先
2. 有顶会、期刊论文者优先
3. 有图像生成经验者优先
4. 有AI陪伴项目经验者优先

工作职责


1. 负责Soul社交垂域多模态基座大模型的研发和应用支撑,作为基座支持包括但不限于 多模态理解、多模态生成、多模态对话、实时双工音视频通话、多Agent对话、aigc内容供给、大模型推荐、内容理解、大模型安全等的技术探索
2. 负责Soul个性化大模型的研发,做到面向用户偏好建模的千人千面大模型,从而更适配Soul AI业务落地场景,提升业务落地效率
3. 协助建设AI中台+数据体系,沉淀技术和数据资产,赋能公司AI相关业务
包括英文材料
学历+
PyTorch+
大模型+
NLP+
相关职位

logo of mi
社招A32672

1. 负责各类多模态大模型的后训练和推理优化,并应用于实际业务中; 2. 探索知识增强技术,通过个人数据提升个性化模型的语言理解和生成能力; 3. 融合多模态数据,攻关具备自主观察环境和推断用户需求的意图决策大模型; 4. 搭建基于VLM的屏幕与物理环境的理解能力,实现具备泛场景能力的操控 Agent; 5. 探索机器学习领域的新技术,探索与其他领域的技术融合。并撰写相关论文,专利。

更新于 2025-06-09
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 课题1:音视频细粒度理解与token压缩,负责人:默宸,HC数:1个 随着大模型时代的到来,图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息,还能保留关键语义特征,从而显著提升图像的细粒度理解能力,同时满足高时效性任务的需求。基于此,我们希望能够开展基于query牵引与信息密度的Token压缩算法研究,针对视频内容的特点,设计高效的压缩与理解方案,以推动视频审核算法的性能优化与实际落地。 课题2:基于规则动态化Token交互的高效视频理解与推理模型研究,负责人:夜兰,HC数:1个 本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型,以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取,结合视觉Token压缩技术,显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制,实现规则与视觉信息的高效联合提取,同时结合多任务学习框架,支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度,适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务,为实际应用场景提供高效、细粒度的视频理解解决方案。 课题3:视频开集信息检测和定位,负责人:默宸,HC数:1个 随着视频内容生态的爆发式增长,传统闭集检测方法在面对业务快速迭代需求时面临显著挑战,难以泛化至开放场景下的新概念检测,且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架,通过多模态语义对齐与时空注意力机制,实现对任意指定内容的视频检索(包含时空定位)。该技术将推动视频审核从定制化开发向通用化检测转型。 课题4:隐式深度推理与动态步骤压缩的协同优化架构研究,负责人:侯猫/亘郁,HC数:2个 现有大语言模型在复杂推理任务中面临根本性效率瓶颈:基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长,KV缓存存储开销线性增加。传统显式推理方法(如Chain-of-Thought)通过生成冗长中间步骤提升精度,却加剧了计算资源消耗;而隐式推理虽能压缩计算步骤,但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发,不仅实现动态剪枝冗余中间思考步骤,同时通过隐状态迭代实现深度计算扩展,从而达到在保持/提升推理精度的同时,将复杂任务的计算负载降低5,突破现有模型在长文本生成与多跳推理中的效率天花板。

logo of meituan
社招核心本地商业-业

1. 负责美团商业增值供给增长算法能力建设,协同工程团队,与业务团队密切配合,提升广告供给数量,支撑收入目标; 2. 负责大模型在智能助手、电销、IM等交互式对话场景中的应用,提升场景的自动化与智能化水平,改进商家的交互体验,提升广告供给; 3. 负责大模型在经营诊断分析、内容生成类场景中的应用,降低平台和商家的运营成本,提升运营效率; 4. 负责大型语言模型的微调、对齐、知识增强以及Agent框架等技术探索,积极跟进大模型业内应用趋势,带领团队完成算法项目攻坚,提高技术影响力;

更新于 2025-02-25
logo of netease
社招3-5年网易伏羲

1、负责机器人多模态大模型(VLA模型)的工程化落地,包括预训练开发、模型微调、训练优化以及实际效果调优; 2、参与基于大模型的机器决策控制工程化工作,包括训练框架搭建、数据集处理、算力部署,以及在真机上的部署与测试; 3、优化大模型的训练效率以及资源利用率,熟练运用诸如模型并行、Flash Attention、LoRA等技术; 4、负责云端数据处理以及分布式训练落地,优化大模型的多模态任务处理能力; 5、跟进多模态大模型与具身智能的前沿应用进展,负责模型在机器人场景的部署与技术转化。

更新于 2025-09-25