logo of quark

夸克算法实习生-基础大模型方向(研究型)

实习兼职日常实习生地点:北京 | 杭州状态:招聘

任职要求


1.自然语言处理机器学习数据挖掘、人工智能等相关专业的硕士生/博士生;
2.熟练掌握 Tensorflow、Pytorch 等深度学习框架,扎实的编程基础,具备独立的算法实现能力;
3.有 LL…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责包含文本、视频、图片、语音等多模态数据对齐的基础大模型核心技术研发,包括 Pretrain、SFT、RL 等,持续追踪和应用领域最新技术进展;
2.预训练:跟进和研发更先进的 foundation 模型结构、训练模式、scaling law,提高训练效率和优化关键问题(如推理、长序列能力,多模态融合); 
3.后训练:跟进和研发基座模型的后训练技术,充分激发模型潜力,包括但不限于高质量指令样本构建、课程学习、reasoning RL 等方向; 
4.应用:通过模型与场景的深度耦合,推进大模型能力在实际业务中的最优表达,构建具备长期价值的智能 Agent;
5.结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。
包括英文材料
NLP+
机器学习+
数据挖掘+
TensorFlow+
还有更多 •••
相关职位

logo of xiaohongshu
实习大模型

【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。

北京
logo of tencent
实习实习生

包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。

深圳|北京|上海
logo of tencent
校招青云计划-实习生

包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。

深圳|北京|上海
logo of tencent
实习Pre留学生实习

包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。

北京