盒马算法工程师-大语言模型
任职要求
【必备项】 1、计算机/电子/人工智能/数学等相关专业硕士/博士在读,具备扎实的ML基础(深度学习/强化学习) 2、熟悉预训练语言模型(BERT/T5/Llama等)与Post-Training范式(SFT/LoRA/RL)。模型优化与推理加速方法(模型蒸馏/量化压缩/动态计算图) 3、熟练使用PyTorch/TensorFlow/TRANSFORMERS等框架,熟悉Linux环境开发。至少精通一门语言(Python/Java/C++),代码逻辑清晰,有工程落地经验者优先 【加分项】 1、参与过大模型/推荐系统/AI客服项目,有模型从0到1开发经验 2、在NeurIPS/ICML/ACL等领域顶会/期刊(一作/二作)发表过论文,或在Kaggle/天池竞赛中获奖 3、ACM/NOI竞赛获奖者或工业界AI Hackathon项目主导者
工作职责
1、主导电商场景下NLP、多模态融合及大模型技术的创新应用,如智能对话机器人/智能客服辅助系统开发,推动技术从实验室到生产环境的转化 2、探索基于Transformer架构的预训练模型优化(如LoRA、Prefix Tuning等),提升客服场景下的上下文理解能力与任务执行效率 3、设计基于LLM的多轮对话管理机制,实现用户咨询意图识别(Query Parsing)、跨模态内容理解(如图文混合Query分析)及个性化回答生成,结合强化学习(RLHF)优化对话策略 4、从预训练到微调全流程优化,重点突破:模型量化压缩(GPTQ/NNPQ)、推理加速及长文本生成连贯性问题
团队介绍:产品覆盖今日头条、头条极速版等各类产品,为上亿用户持续提供优质的资讯、视频等服务。我们通过建立良好的内容生态,鼓励优质的原创内容,为创作者提供优质的服务和创作体验,促进创作和交流,同时我们致力于通过尽可能丰富的内容体裁和尽可能多的分发方式,连接人与信息,丰富大家的精神生活,让人们看到更大的世界。 1、参与基础大语言模型应用研发; 2、推进大模型AI能力在头条热点、AIGC等业务场景的快速落地,结合SFT/RLHF方向的前沿算法持续提升业务效果天花板; 3、关注和推进相关大模型技术在业务场景的落地,包括摘要、智能创作等。
1. 协助团队进行大语言模型的预训练和微调工作,提高模型的性能和效率。 2. 利用多模态技术,提升模型对于多种类型数据的理解和处理能力。 3. 探索和研究RAG/Agent等技术,将其应用到实际业务中。 4. 将大语言模型技术应用到审核、客服、推搜内容理解等业务场景中,提升业务效率和用户体验。 5. 配合团队其他成员,解决项目开发和实施过程中遇到的问题。
1. 负责大语言模型及多模态大模型的预训练开发和调优工作; 2. 负责基于大模型的机器人控制算法设计、训练、数据集处理、及真机部署测试; 3. 负责大模型训练效率提升,如:模型并行、flash attention、LoRA; 4. 负责跟进领域最新进展,预研和评估大模型在机器人领域的应用, 如RT系列等。
我们是饿了么AI算法团队,工作涉及:外卖垂域大模型训练、Agent和AI产品创新、图片理解与生成、视频语音多模态等方面,围绕餐饮/零售/医药等业务,紧密支撑搜索、推荐、营销、用增、toB等多场景的AI需求。 具体职责包括但不限于: 1、参与大语言模型、AIGC(图片/视频)生成大模型、多模态模型工作,包括数据收集与处理、预训练和领域持续预训练、提示与指令设计、SFT与RL对齐、通用&应用能力的训练。 2、参与AI应用项目的研发工作,让AI能力落地取得收益,比如在智能搜索、导购体验、下单效率、AI点餐、图片素材、视频素材、创意生成等,支撑搜索/推荐/营销/用增/供给等多个场景。 3、具备一定的AI Infra能力,基于大模型底层训练平台和业界主流框架,来训练和调优模型。能够参与到底层模型工程团队的训练推理加速、资源优化等工作中,有CUDA算子优化经验者优先。 4、AI技术日新月异,对前沿技术敏感;能及时跟进并消化吸收前沿技术,将其转化为实际生产力,包括且不限于NLP、CV、搜推广营销等领域;有一定的学术能力,能跟业界、学界保持良好的交流。