通义研究型实习生-多模态生成模型训练推理优化
任职要求
1. 掌握机器学习和深度学习基础知识,熟悉常用视觉生成算法,熟悉Pytorch、Tensorflow等至少一种深度学习框架。 2. 极佳的工程实现能力,熟练掌握C/C++、Java、Python等至少一门语言。 3. 良好的科研能力,有成果发表在CVPR、ICCV、NeurIPS、ICLR、TPAMI等国际顶级会议、期刊者优先。
工作职责
1. 重点研究生成大模型的训练和推理效率问题。 2. 研究各种蒸馏加速算法,包括CFG蒸馏,推理步数蒸馏等。 3. 研究各种Training-free推理加速算法,不限于cache、量化、采样优化等策略。 4. 研究生成模型的高效训练架构,包括但不限于sparse/linear attention、时空独立建模、超分模块等策略。
专注于音频生成大模型的研究、探索和开发,具体职责包括: 1、研发更加通用、适用于多种音频信号生成的 Audio Tokenizer,包括但不限于声学事件、音效、背景音乐、歌唱等。 2、探索更加高效的自回归音频生成技术,从根本上解决现有自回归模型的效率问题。 3、探索基于连续声学特征的音频生成大模型,生成能力从语音扩展到包括音乐、声学事件、音效等更广泛的音频信号。 4、探索在音频生成时对 Life-term 上下文有效的建模方式,提高训练、推理效率以及合成音频的表现力。 5、研究适用于音频生成模型的 post-training 策略,例如强化学习、多任务微调等。
研究领域: 人工智能 项目简介: 内生安全是近年来大语言模型研发中的一个关键研究方向。随着模型能力的快速增长,特别是推理模型,通过慢思考LongCoT的方式极大的提升了能力达到专家水平,然而强大能力也带来了潜在的安全风险。内生安全的目标是通过设计模型架构、推理机制或训练流程,使得模型在底层逻辑中具备一致性、自我审查和误差控制的能力,从本质上降低安全隐患,而不是简单依赖筛查和围栏过滤。 对于推理模型的内生安全而言,其主要难点在于 1. 可解释性不足,缺乏启发式策略和理论的结合。没有对推理模型有专门的内生安全性质的定义,形成数学的框架 2. 对抗能力缺失。由于模型较新且运行成本大,目前已有的jailbreak方法依赖大量试错的尝试,很难形成有效的攻防相互促进 3. 动态推理过程的监督。由于推理模型将思考过程进行展示,以往工作只关注在最后模型回复阶段,忽略了推理过程可能包含的风险 因此,可以再一下方向进行相关研究 1. 安全高效评估框架:针对推理模型研发专门的red team方法进行内生安全评估 2. 对抗训练:提出高效的对抗方法,通过posttrain方式提升内生安全 3. 内生安全奖励:在GRPO过程中,除了回复的helpful,也考虑harmless 4. 多模态场景下的推理安全:对图文视频音频等多模态输入,均在思考过程中进行安全检查等
研究领域: 人工智能 项目简介: 蚂蚁国际当前处于全球化和AI规模化应用的战略关键节点中,为支持多条业务线的业务规模化增长,蚂蚁国际风控致力于AI的创新及其在风控场景的应用。应用场景包括但不限于基于多智能体的风控决策系统, Deepfake识别,风控深度推理大模型等解决实际业务痛点。团队鼓励创新,勇于探索及突破前沿AI能力边界。 1.负责foundation model和生成式AI智能体构建,追踪业界文本生成、思维学习、内容理解等方向的最新技术,极致优化预训练、微调、领域知识注入、RLHF、RM、AI可解释能力。 2.负责AI技术前沿技术跟踪、创新和落地,例如,利用意图理解、图文理解等构建新一代的生成式审核机器人与辅助系统,运用反馈标注、知识体系建设、知识图谱构建等任务;利用多模态技术对图像、文本、结构化数据进行融合学习,致力于挖掘风控场景问题并全面提升风险运营效率,并帮助实现对合规、欺诈、洗钱等风险的高效管控。 3.深入跟踪调研前沿技术方向 ,包括但不限于 NLP/CV/多模态/智能体等,并适时进行技术分享。推动相关领域技术创新,进行专利申请和学术文章发表,产出至少一篇CCF-A以上论文。