蚂蚁金服蚂蚁集团-大模型算法工程师(智能评测)-北京【AI Force】

社招全职5年以上技术类-算法2025-09-18地点：北京状态：招聘

扫码手机上打开

任职要求

1. 教育背景：计算机科学、人工智能、数据科学、数学或相关领域的硕士及以上学历。
2. 技术能力：
  ○ 熟练掌握Python、Java等编程语言，具备扎实的算法与数据结构基础。
  ○ 熟悉常见的agent、workflow开发框架，了解大模型常见应用范式…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们是致力于推动智能化服务技术革新的创新团队，专注于为全行业提供高效、智能的解决方案。我们的业务涵盖智能客服、智能培训、智能质检等多个领域。
我们团队正在建设“评测数字员工”，旨在通过标准化、智能化的评测手段，推动AI智能服务的全面升级，并打造行业领先和有代表性的评测体系与benchmark。
如果你对AI、NLP、数据挖掘、评测等领域充满热情，并希望在一个充满挑战与机遇的环境中快速成长，那么加入我们，一起定义未来智能化服务的新标准！

【职位描述】
1. 评测体系设计：参与设计并优化智能化服务（包括智能客服、智能培训、智能质检等）的评测体系，涵盖对话质量、操作质量、培训效果、拟人化、用户满意等核心指标。
2. 评测开发与优化：
  ○ 研发并优化基于LLM-as-Judge的评测能力，包括但不限于对话生成质量评估、意图识别准确率、多轮对话一致性等。
  ○ 探索agent在复杂任务中的性能评测方法，如任务规划、SOP遵循、RAG、多模态交互等。
3. Red-team：针对agent系统的弱点进行攻击，找到系统潜在的风险，防患于未然。
4. Benchmark构建：构建并维护智能化服务领域的代表性benchmark，确保评测标准的科学性与可扩展性。
5. 数据驱动决策：通过数据分析与挖掘，识别智能化服务系统的性能瓶颈，并提出改进方案。
6. 跨业务协作：与多个智能体研发团队、产品团队紧密合作，确保评测体系与业务需求的高度匹配，推动产品的持续优化。
7. 技术前沿探索：跟踪智能化服务领域的最新技术动态，探索并落地创新评测方法。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据科学+

学历+

Python+

Java+

C+++

算法+

数据结构+

还有更多 •••

登录查看完整学习资料

相关职位

大模型算法质量工程师-智能化方向

校招J1017

1、参与大模型在软件测试领域的探索与落地，包括但不限于：智能测试用例生成、GUI自动化Agent、代码缺陷分析、多模态异常检测等创新方向；  2、推动大模型与质量工程的结合，通过Prompt工程、微调（SFT）、强化学习（RL）等技术优化测试效率和系统稳定性；  3、构建智能化评测体系，参与大模型（LLM、文生图/视频模型）的评测方案设计、效果评估与迭代优化；  4、跟进AI领域前沿技术（如Agent框架、多模态分析、数据飞轮构建），探索在技术风险防控、故障根因定位等场景的应用；  5、与业务测试团队协作，推动算法模型在真实业务测试或模型应用评测场景中的落地与持续迭代。

更新于 2025-10-22北京

大模型算法工程师（智能对话）-国际电商

社招A57845

1、开发AI驱动的智能客服系统：设计并实现AI对话式客服助手，能够处理电商咨询、投诉、退款、争议解决及物流相关问题，以AI替代传统人工客服； 2、大语言模型（LLM）后训练与高效学习：应用最前沿的LLM训练优化技术，如指令微调、强化学习、持续学习等，在最少标注数据的情况下优化AI客服响应质量，具备大语言模型（LLM）微调、知识蒸馏或强化学习的相关经验，应用于对话式AI场景；深入理解检索增强生成（RAG）、专家混合模型（MoE）、稀疏注意力、强化学习、推理时间优化等技术，以提升AI对话质量； 3、基准测试与训练数据构建：识别具有挑战性的客服交互场景，如政策解读、争议处理、客户投诉、导购推荐等，并构建专门的测试集和训练集； 4、多语言与跨文化客服支持：构建能够适应多语言和不同文化背景的AI模型，确保客服交互的精准翻译和针对不同用户群体的合适响应。精通多语言自然语言处理（NLP）、机器翻译及跨语言对话建模； 5、模型优化与高效部署：研究模型压缩、量化、推理优化等技术，确保AI客服助手在大规模应用场景下具备低延迟、高可靠性的表现。

更新于 2025-04-21北京

大模型算法工程师-质量智能方向

社招A142698

团队介绍：我们是字节跳动质量技术团队，致力于基于海量质量领域数据，通过AI智能化构建新一代的质量工作范式，主要方向包括测试用例生成、业务领域建模、智能断言、诊断分析。 1、参与领域模型的全流程工作，包括但不限于数据、训练、评测、推理部署； 2、探索LLM技术在质量领域中的落地应用，基于大量质量能力构建统一的智能化测试基建； 3、负责质量智能化领域LLM/Agents的数据工程，构建数据飞轮； 4、负责基于质量数据做模型微调（Fine-tune），确保模型精度和效率。

更新于 2024-05-09北京

抖音搜索算法工程师-大模型应用

社招A210147

1、探索搜索引擎与大模型、多模态、机器学习、强化学习等前沿技术的结合，实现搜索引擎全链路革新并进行极致的系统优化，探索提升AI搜索引擎的能力，包括不限于AI问答/AI搜、语义相关性、视频内容理解、生成创作、智能评测等； 2、构建大规模高质量数据（数据建设、数据合成等），训练和优化AI搜索模型，包括LLM post-train（SFT、RL、LongCoT、个性化对齐），回答富媒体化（图片、视频、自由画布），多模态问答（视频理解、VQA、VLM）等； 3、探索推进AI搜索前沿进展，包括智能Agent、Deep Research、Planning、工具建设和调用等。

更新于 2025-04-09北京