蚂蚁金服【蚂蚁星】向量数据库工程师
任职要求
1. 熟练掌握 C/C++/Python 编程语言,熟练掌握常用数据结构及算法,有推荐、搜索、广告后台或引擎开发经验优先; 2. 具备向量检索算法、数学、统计学等方向理论基础,熟悉聚类(如k-means)、量化压缩(如PQ、SQ)、索引(如IVFPQ、HNSW、NSG、DiskANN)等算法者优先; 3. 具有向量检索产品开发经验,或熟悉主流向量检索项目(faiss/milvus/pinecone/qdrant)优先; 4. 在高水平国际会议/学术期刊发表过相关论文,或有高水平竞赛获奖经历者优先;
工作职责
1. 负责向量数据库的架构设计和功能开发,以及在音视频检索、搜索、推荐、广告等业务上的落地; 2. 负责 ANN(Approximate Nearest Neighbor)算法的设计和验证,结合软硬件实现大容量、高吞吐、高召回、低成本的向量检索算法,持续构建业界领先的产品竞争力; 3. 支持支付宝直播、短视频检索、生物信息检索等上层多模态检索业务应用场景; 4. 跟进 RAG / AIGC 等前沿技术研究,探索向量检索在 LLM 大模型场景中的应用; 5. 持续跟踪学术界与工业界主流的向量数据库最新进展;
我们负责蚂蚁集团内基础人工智能技术的研发与创新,致力于通用人工智能的实现。研究范围涵盖广泛,不仅包括语言大模型、多模态大模型等前沿的大模型技术,也深耕优化算法、知识图谱等基础AI方向。我们自主研发并开源了百灵大模型系列,旨在打造更高效、更通用的AI技术底座。我们积极推动开放协作的AI生态建设,通过技术共享、产学研合作等方式,促进人工智能技术的普惠发展,推动AI技术在各行各业的深度应用。 1. 负责研发大语言模型预训练技术,如高效的新型llm模型架构、长窗口训练技术、pretrain scaling law、高效预训练策略等。 2. 负责研发基于强化学习的推理模型,如大规模强化学习、新型RL算法、testing time scaling等。
作为蚂蚁集团的核心大模型部门,我们专注大语言模型的技术攻坚与创新突破,致力于推动通用人工智能(AGI)技术的实质性进展。团队聚焦LLM后训练方向,包括模型对齐、高阶推理、安全可控等,持续完善智能系统的认知深度与可靠性。目前部门拥有数万张显卡资源,并且仍在持续加大投入,为探索模型能力边界提供坚实的保障。在追求AGI的道路上,我们始终秉持蚂蚁集团的技术务实基因,通过扎实的底层创新推动智能技术的产业落地。 1. 研发万亿参数LLM基模架构:大语言模型(LLM)后训练(post-train)全流程优化,设计高效分布式训练方案,进行十万亿token级别的超大规模训练,包括但不限于通用能力提升、安全对齐等方向; 2. 奥赛级别的LLM各项能力建设,迈向真正的AGI:前沿的高效强化学习算法设计,实现并应用SFT/RLHF/DPO/PPO/GRPO等算法,研发训推一体的大规模强化学习训练框架,探索多目标奖励模型、过程监督等前沿技术,提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能; 3. 扩大工业与学术影响力:开源LLM模型及核心技术,发表顶会论文,贡献核心开源项目。
团队主要负责蚂蚁集团大语言模型的语料优化,涵盖数据扩源、数据质量提升、合成语料、数据利用方式优化、数学/代码/推理/对话能力提升等多个方向。我们致力于通过数据驱动的方式打造业界一流的语言基座模型。 1. 负责大语言模型各阶段训练语料的优化工作,包括预训练、后训练、强化学习训练阶段,具体的工作包括体系化地扩展各类型的数据、定义并迭代优化数据质量、建设高效的合成语料技术、优化高质量数据筛选策略、优化数据配比及训练策略等; 2. 负责端到端地优化基座模型的各项关键能力,包括数学、代码、推理、对话等能力,具体工作包括扩展各能力相关的语料、定义并迭代优化数据质量、针对性地合成相关语料、优化高质量数据筛选策略、优化各阶段数据配比及训练策略、优化评测方式等; 3. 负责研发语料优化相关的基础设施,包括研发高效的数据处理算子及链路、构建数据标签体系及标注模型、探索数据与模型效果的关系、设计数据效果评估机制等; 4. 跟踪和研究大模型领域的前沿技术方向,包括但不限于语料优化、预训练和后训练算法、知识增强、数据合成等,推动技术创新并应用到基座模型训练中。
蚂蚁集团技术研究院致力于做有用、有想象力的科研,负责探索下一代前沿科技,帮助蚂蚁构建更具竞争力和可持续性的技术生态。 蚂蚁技术研究院数据智能实验室专注于通过下一代数据创新深化AGI前沿,这里汇聚了一群对人工智能充满热情的极客、科学家和工程师,核心成员累计学术引用量过万。 实验室拥有顶级资源支持包括但不限于海量高质量训练数据(万亿级Token,覆盖多领域、多模态);超大规模算力(万卡级GPU集群,支持分布式训练与高效调优);与全球顶尖AI团队(如DeepMind、OpenAI等)的深度合作机会等。 你将参与: - 下一代AGI大模型研发 a. 探索更高效的训练架构 b. 突破现有模型的推理与泛化能力 c. 研究多模态、因果推理、强化学习等前沿方向 - 构建新数据范式 a. math/code数据饱和后的后训练时代数据 b. 合成数据,突破全球可用数据上限 c. 多模态数据,构建空间数据与跨模态任务的核心引擎 - 技术创新与开源 a. 撰写高质量技术论文,推动学术边界 b. 构建开源工具链,降低AGI研发门槛 c. 与全球开发者社区互动,分享你的成果