盒马算法工程师-大语言模型
任职要求
【必备项】 1、计算机/电子/人工智能/数学等相关专业硕士/博士在读,具备扎实的ML基础(深度学习/强化学习) 2、熟悉预训练语言模型(BERT/T5/Llama等)与Post-Training范式(SFT/LoRA/RL)。模型优化与推理加速方法(模型蒸馏/量化压缩/动态计算图) 3、熟练使用PyTorch/TensorFlow/TRANSFORMERS等框架,熟悉…
工作职责
1、主导电商场景下NLP、多模态融合及大模型技术的创新应用,如智能对话机器人/智能客服辅助系统开发,推动技术从实验室到生产环境的转化 2、探索基于Transformer架构的预训练模型优化(如LoRA、Prefix Tuning等),提升客服场景下的上下文理解能力与任务执行效率 3、设计基于LLM的多轮对话管理机制,实现用户咨询意图识别(Query Parsing)、跨模态内容理解(如图文混合Query分析)及个性化回答生成,结合强化学习(RLHF)优化对话策略 4、从预训练到微调全流程优化,重点突破:模型量化压缩(GPTQ/NNPQ)、推理加速及长文本生成连贯性问题
核心职责与研究课题: 1. 研发垂域大模型:面向淘宝复杂工程技术体系,构建懂淘宝上下文的研发垂域大模型。 ①设计面向复杂工程系统的大模型数据构建和训练策略,涵盖离线的研发数据的高质量组织与清洗、在线人机协同的用户轨迹数据组织与迭代、算法训练方式策略选择(CPT、SFT、RL/RLHF)等; ②攻克研发场景的大模型面临的工程系统关系理解、研发领域知识显式记忆与推理、研发域差异化任务规划及工具调用、及情景感知检索等方向难题,打造懂业务、懂架构的研发智能体能力。 2. 端侧大模型探索:结合淘宝开源端侧深度推理引擎 MNN,探索极致高效的端侧大模型技术。 ①摒弃单纯的模型压缩思路,以端侧NPU/CPU/GPU 的硬件特性牵引大模型架构设计,探索并设计适合端侧运行的高效模型架构,在有限算力下突破性能瓶颈; ②负责端侧模型的全流程训练探索,涉及从预训练及后训练优化,结合投机采样、KV Cache优化、混合量化等优化,得到高性能的端侧大模型。 T-Star实习可以带给你什么? ① 加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。 ② 跟企业大牛导师/学术界名导一起做有价值的课题。 ③ 丰富的技术资源、海量的数据与优秀的团队助力发paper。
团队介绍:产品覆盖今日头条、头条极速版等各类产品,为上亿用户持续提供优质的资讯、视频等服务。我们通过建立良好的内容生态,鼓励优质的原创内容,为创作者提供优质的服务和创作体验,促进创作和交流,同时我们致力于通过尽可能丰富的内容体裁和尽可能多的分发方式,连接人与信息,丰富大家的精神生活,让人们看到更大的世界。 1、参与基础大语言模型应用研发; 2、推进大模型AI能力在头条热点、AIGC等业务场景的快速落地,结合SFT/RLHF方向的前沿算法持续提升业务效果天花板; 3、关注和推进相关大模型技术在业务场景的落地,包括摘要、智能创作等。
1. 协助团队进行大语言模型的预训练和微调工作,提高模型的性能和效率。 2. 利用多模态技术,提升模型对于多种类型数据的理解和处理能力。 3. 探索和研究RAG/Agent等技术,将其应用到实际业务中。 4. 将大语言模型技术应用到审核、客服、推搜内容理解等业务场景中,提升业务效率和用户体验。 5. 配合团队其他成员,解决项目开发和实施过程中遇到的问题。