小红书大模型算法实习生
实习兼职大模型地点:北京 | 上海状态:招聘
任职要求
1、硕士/博士在读,计算机、数学等相关专业,国内985/全球TOP高校优先,实习期至少3个月; 2、大模型领域前沿技术有深度研究,在国际顶会/顶刊发表过高水平论文者优先; 3、在大模型领域有实践经验,包括数据过滤、数据去重、数据合成,或继续预训练、SFT、RLHF,或知识蒸馏、量化和模型剪枝,或参与过rag和agent商业产品研发; 4、有良好代码能力,ACM/ICPC竞赛区域赛银牌以上者优先;开源项目核心贡献者优先;国内外知名数据挖掘比赛(例如KDD Cup等)中取得领先名次者优先。 Plus:团队成员来自国内外顶尖高校和知名企业、CCF A类会议Best Paper作者、全球AI 2000榜单TOP 100、CCTV-13《新闻直播》表彰者、国家级行业学会科技奖一等奖第一完成人等。
工作职责
1、探索下一代AI搜索范式,从底层模型架构和训练方式角度出发,研发AI搜索大模型,在推理速度,幻觉,回答准确性等方向进行突破; 2、探索新一代大语言模型基座架构,以高效推理模式为核心优化目标,探索全新模型结构和scaling law。 3、在工作中能快速成长,积极探索前沿技术,解决好业务中遇到的实际问题,完成数据处理、建模和工程上线,对AI技术始终保持热爱,实习期间可发表论文。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
SFT+
https://cameronrwolfe.substack.com/p/understanding-and-using-supervised
Understanding how SFT works from the idea to a working implementation...
RAG+
https://www.youtube.com/watch?v=sVcwVQRHIc8
Learn how to implement RAG (Retrieval Augmented Generation) from scratch, straight from a LangChain software engineer.
数据挖掘+
https://www.youtube.com/watch?v=-bSkREem8dM
Database vs Data Warehouse vs Data Lake
https://www.youtube.com/watch?v=7rs0i-9nOjo
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
相关职位
实习网易有道
参与前沿大模型算法的研发与落地应用,方向包括但不限于:智能 Agent、Deep Research、多模态大模型、检索增强生成 (RAG) 等; 紧跟领域最新技术动态,探索创新算法方法,并积极推动科研成果的产出; 参与技术方案讨论、算法设计与实现、模型训练与优化等研发工作,保证项目进度和研发质量; 持续学习和掌握最新的大模型相关技术,并应用于实际产品和项目中,解决实际问题。
更新于 2025-06-18
实习内容理解
工作职责: 1. 真实业界数据的处理分析:定性分析、定量评估数据质量、对数据采集和处理方案不断优化改进; 2. 模型开发:参与Qwen、Llama等开源LLM的训练微调、量化和部署实践,追踪业内前沿,达到领先的性能指标; 3. 结合小红书丰富的工业场景,根据实际业务需求进行技术落地和创新。
更新于 2025-09-23
实习D12518
团队介绍:负责大语言模型技术在快手智能研发场景的研究和应用,负责代码生成大模型的性能优化和定制化改进,以提升公司整体研发效率为目标,推动大模型技术在代码理解、代码自动生成、代码审核等研发流程中的落地应用。主要工作方向包括: 1、为公司研发团队提供基于更高性能代码生成大模型的编码辅助工具; 2、探索推理加速、超长上下文能力等大模型优化方法; 3、数据建设、指令微调、偏好对齐等模型训练范式优化。
更新于 2025-06-05