蚂蚁金服【蚂蚁星】向量数据库工程师

校招全职蚂蚁星计划 - Plan A地点：上海状态：招聘

扫码手机上打开

任职要求

1. 熟练掌握 C/C++/Python 编程语言，熟练掌握常用数据结构及算法，有推荐、搜索、广告后台或引擎开发经验优先；
2. 具备向量检索算法、数学、统计学等方向理论基础，熟悉聚类（如k-means）、量化压缩（如PQ、SQ）、索引（如IVFPQ…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责向量数据库的架构设计和功能开发，以及在音视频检索、搜索、推荐、广告等业务上的落地；
2. 负责 ANN（Approximate Nearest Neighbor）算法的设计和验证，结合软硬件实现大容量、高吞吐、高召回、低成本的向量检索算法，持续构建业界领先的产品竞争力；
3. 支持支付宝直播、短视频检索、生物信息检索等上层多模态检索业务应用场景；
4. 跟进 RAG / AIGC 等前沿技术研究，探索向量检索在 LLM 大模型场景中的应用；
5. 持续跟踪学术界与工业界主流的向量数据库最新进展；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Python+

还有更多 •••

登录查看完整学习资料

相关职位

【蚂蚁星-Plan A】算法工程师-预训练

校招蚂蚁星计划 -

我们负责蚂蚁集团内基础人工智能技术的研发与创新，致力于通用人工智能的实现。研究范围涵盖广泛，不仅包括语言大模型、多模态大模型等前沿的大模型技术，也深耕优化算法、知识图谱等基础AI方向。我们自主研发并开源了百灵大模型系列，旨在打造更高效、更通用的AI技术底座。我们积极推动开放协作的AI生态建设，通过技术共享、产学研合作等方式，促进人工智能技术的普惠发展，推动AI技术在各行各业的深度应用。 1. 负责研发大语言模型预训练技术，如高效的新型llm模型架构、长窗口训练技术、pretrain scaling law、高效预训练策略等。 2. 负责研发基于强化学习的推理模型，如大规模强化学习、新型RL算法、testing time scaling等。

北京|上海|杭州

【蚂蚁星-Plan A】算法工程师-后训练

校招蚂蚁星计划 -

作为蚂蚁集团的核心大模型部门，我们专注大语言模型的技术攻坚与创新突破，致力于推动通用人工智能（AGI）技术的实质性进展。团队聚焦LLM后训练方向，包括模型对齐、高阶推理、安全可控等，持续完善智能系统的认知深度与可靠性。目前部门拥有数万张显卡资源，并且仍在持续加大投入，为探索模型能力边界提供坚实的保障。在追求AGI的道路上，我们始终秉持蚂蚁集团的技术务实基因，通过扎实的底层创新推动智能技术的产业落地。 1. 研发万亿参数LLM基模架构：大语言模型（LLM）后训练（post-train）全流程优化，设计高效分布式训练方案，进行十万亿token级别的超大规模训练，包括但不限于通用能力提升、安全对齐等方向； 2. 奥赛级别的LLM各项能力建设，迈向真正的AGI：前沿的高效强化学习算法设计，实现并应用SFT/RLHF/DPO/PPO/GRPO等算法，研发训推一体的大规模强化学习训练框架，探索多目标奖励模型、过程监督等前沿技术，提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能； 3. 扩大工业与学术影响力：开源LLM模型及核心技术，发表顶会论文，贡献核心开源项目。

北京|上海|杭州

【蚂蚁星-Plan A】算法工程师-语料优化

校招蚂蚁星计划 -

团队主要负责蚂蚁集团大语言模型的语料优化，涵盖数据扩源、数据质量提升、合成语料、数据利用方式优化、数学/代码/推理/对话能力提升等多个方向。我们致力于通过数据驱动的方式打造业界一流的语言基座模型。 1. 负责大语言模型各阶段训练语料的优化工作，包括预训练、后训练、强化学习训练阶段，具体的工作包括体系化地扩展各类型的数据、定义并迭代优化数据质量、建设高效的合成语料技术、优化高质量数据筛选策略、优化数据配比及训练策略等； 2. 负责端到端地优化基座模型的各项关键能力，包括数学、代码、推理、对话等能力，具体工作包括扩展各能力相关的语料、定义并迭代优化数据质量、针对性地合成相关语料、优化高质量数据筛选策略、优化各阶段数据配比及训练策略、优化评测方式等； 3. 负责研发语料优化相关的基础设施，包括研发高效的数据处理算子及链路、构建数据标签体系及标注模型、探索数据与模型效果的关系、设计数据效果评估机制等； 4. 跟踪和研究大模型领域的前沿技术方向，包括但不限于语料优化、预训练和后训练算法、知识增强、数据合成等，推动技术创新并应用到基座模型训练中。

北京|上海|杭州

【蚂蚁星-Plan A】助理研究员-数据智能方向

校招蚂蚁星计划 -

蚂蚁集团技术研究院致力于做有用、有想象力的科研，负责探索下一代前沿科技，帮助蚂蚁构建更具竞争力和可持续性的技术生态。蚂蚁技术研究院数据智能实验室专注于通过下一代数据创新深化AGI前沿，这里汇聚了一群对人工智能充满热情的极客、科学家和工程师，核心成员累计学术引用量过万。实验室拥有顶级资源支持包括但不限于海量高质量训练数据（万亿级Token，覆盖多领域、多模态）；超大规模算力（万卡级GPU集群，支持分布式训练与高效调优）；与全球顶尖AI团队（如DeepMind、OpenAI等）的深度合作机会等。你将参与： - 下一代AGI大模型研发 a. 探索更高效的训练架构 b. 突破现有模型的推理与泛化能力 c. 研究多模态、因果推理、强化学习等前沿方向 - 构建新数据范式 a. math/code数据饱和后的后训练时代数据 b. 合成数据，突破全球可用数据上限 c. 多模态数据，构建空间数据与跨模态任务的核心引擎 - 技术创新与开源 a. 撰写高质量技术论文，推动学术边界 b. 构建开源工具链，降低AGI研发门槛 c. 与全球开发者社区互动，分享你的成果

杭州