滴滴大模型算法专家(J250829001)
任职要求
1. 计算机科学/人工智能/数据科学/数学或相关专业硕士及以上学历。 2. 精通深度学习、自然语言处理、大语言模型、AI Agent等相关领域的前沿技术;熟悉主流深度学习框架(如TensorFlow、PyTorch);具备良好的编程能力(Python/C++)。 …
工作职责
1. 负责Data+AI场景下大模型(LLM)、智能体(Agent)的算法研发、优化及落地应用。 2. 负责大模型后训练、AI Agent领域相关前沿算法的调研、设计与优化;主导大模型的架构设计、训练与调优工作;构建高效的模型评估与监控体系,确保模型性能和稳定性。 3. 与产品、工程等团队紧密协作,针对业务场景设计并实现高效的Prompt工程策略、模型微调方案及性能优化技术,推动算法成果在实际场景中的应用。 4. 关注行业前沿技术趋势,结合业务需求进行技术选型与方案验证;撰写技术文档和研究报告,参与或主持相关学术交流,推动团队技术能力提升,提升公司技术竞争力。
1. 从flops efficiency角度,对大模型预训练过程进行分析与探索,包括不限于对scaling law的研究,数据的认知实验,MoE等模型架构设计,以及其他工程与算法结合的ml sys相关优化等。 2. 负责原生多模态大模型的构建与预训练,包括各模态分词器设计,合成数据策略,以及跨模态融合训练策略等,提升原生多模态模型在视觉/语音的理解与生成任务上的能力。 3. 进行大模型reasoning能力的相关研究,研究pre-train / test-time compute对于模型推理能力的影响,借助SFT / DPO / self-play等手段,提高模型在代码数学等推理任务上的表现。 4. 通过post-training激发模型在各下游任务上的能力,从而构建具有通用问题解决能力的agent。
1、跟进大模型领域最新进展,包括LLM、VLM、SpeechLLM、Reasoning模型等领域近期算法的跟踪、实现、最佳实践流程标准化; 2、与研发团队密切合作,面向实际业务场景与软硬件特点,将算法与工程技术落地于实际项目,满足前沿创新目标或者业务目标。
1. 负责制定大语言模型方向的技术战略与演进路线,持续引领团队在算法创新、系统部署、智能体架构等关键方向取得突破; 2. 全面统筹垂域大语言模型的研发、评估与部署生命周期,推动算法与系统能力的标准化、模块化和可复用建设; 3. 牵头在客服、销售、收派、运营、办公智能等核心领域构建智能体系统,重构关键业务流程,推动大语言模型的深度融合与落地应用; 4. 主导复杂业务问题的抽象建模,构建行业级、多任务、多场景的评估体系,覆盖模型精度、稳定性、安全合规等维度; 5. 制定并实施大语言模型系统性能优化策略,构建资源利用率高、弹性强的推理服务架构,提升模型部署效率与稳定性; 6. 引导团队围绕业务目标开展系统性大语言模型算法调研与分析,识别潜在问题与机会点,提出可落地的优化方案; 7. 紧跟大语言模型领域技术发展,持续输出行业趋势洞察,制定面向未来的技术路线与实施规划; 8. 管理算法团队,对团队成员进行技术引领、指导、职业发展辅导,保持团队先进性。
