蚂蚁金服蚂蚁集团-大模型算法工程师(智能评测)-北京【AI Force】
任职要求
1. 教育背景:计算机科学、人工智能、数据科学、数学或相关领域的硕士及以上学历。 2. 技术能力: ○ 熟练掌握Python、Java等编程语言,具备扎实的算法与数据结构基础。 ○ 熟悉常见的agent、workflow开发框架,了解大模型常见应用范式、调用方法和典型缺陷。 ○ 熟悉数据清洗、生产、挖掘,有数据标注、合成,评测集构建等经验者优先。 3. 团队合作:具备良好的沟通能力与团队协作精神,能够与跨职能团队高效合作。 4. 价值认同:对评测方向要有兴趣、有热情,愿意作为“裁判员”帮助AI能力提升。
工作职责
我们是致力于推动智能化服务技术革新的创新团队,专注于为全行业提供高效、智能的解决方案。我们的业务涵盖智能客服、智能培训、智能质检等多个领域。 我们团队正在建设“评测数字员工”,旨在通过标准化、智能化的评测手段,推动AI智能服务的全面升级,并打造行业领先和有代表性的评测体系与benchmark。 如果你对AI、NLP、数据挖掘、评测等领域充满热情,并希望在一个充满挑战与机遇的环境中快速成长,那么加入我们,一起定义未来智能化服务的新标准! 【职位描述】 1. 评测体系设计:参与设计并优化智能化服务(包括智能客服、智能培训、智能质检等)的评测体系,涵盖对话质量、操作质量、培训效果、拟人化、用户满意等核心指标。 2. 评测开发与优化: ○ 研发并优化基于LLM-as-Judge的评测能力,包括但不限于对话生成质量评估、意图识别准确率、多轮对话一致性等。 ○ 探索agent在复杂任务中的性能评测方法,如任务规划、SOP遵循、RAG、多模态交互等。 3. Red-team:针对agent系统的弱点进行攻击,找到系统潜在的风险,防患于未然。 4. Benchmark构建:构建并维护智能化服务领域的代表性benchmark,确保评测标准的科学性与可扩展性。 5. 数据驱动决策:通过数据分析与挖掘,识别智能化服务系统的性能瓶颈,并提出改进方案。 6. 跨业务协作:与多个智能体研发团队、产品团队紧密合作,确保评测体系与业务需求的高度匹配,推动产品的持续优化。 7. 技术前沿探索:跟踪智能化服务领域的最新技术动态,探索并落地创新评测方法。
1、开发AI驱动的智能客服系统:设计并实现AI对话式客服助手,能够处理电商咨询、投诉、退款、争议解决及物流相关问题,以AI替代传统人工客服; 2、大语言模型(LLM)后训练与高效学习:应用最前沿的LLM训练优化技术,如指令微调、强化学习、持续学习等,在最少标注数据的情况下优化AI客服响应质量,具备大语言模型(LLM)微调、知识蒸馏或强化学习的相关经验,应用于对话式AI场景;深入理解检索增强生成(RAG)、专家混合模型(MoE)、稀疏注意力、强化学习、推理时间优化等技术,以提升AI对话质量; 3、基准测试与训练数据构建:识别具有挑战性的客服交互场景,如政策解读、争议处理、客户投诉、导购推荐等,并构建专门的测试集和训练集; 4、多语言与跨文化客服支持:构建能够适应多语言和不同文化背景的AI模型,确保客服交互的精准翻译和针对不同用户群体的合适响应。精通多语言自然语言处理(NLP)、机器翻译及跨语言对话建模; 5、模型优化与高效部署:研究模型压缩、量化、推理优化等技术,确保AI客服助手在大规模应用场景下具备低延迟、高可靠性的表现。
团队介绍:我们是字节跳动质量技术团队,致力于基于海量质量领域数据,通过AI智能化构建新一代的质量工作范式,主要方向包括测试用例生成、业务领域建模、智能断言、诊断分析。 1、参与领域模型的全流程工作,包括但不限于数据、训练、评测、推理部署; 2、探索LLM技术在质量领域中的落地应用,基于大量质量能力构建统一的智能化测试基建; 3、负责质量智能化领域LLM/Agents的数据工程,构建数据飞轮; 4、负责基于质量数据做模型微调(Fine-tune),确保模型精度和效率。
1、探索搜索引擎与大模型、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包括不限于AI问答/AI搜、语义相关性、视频内容理解、生成创作、智能评测等; 2、构建大规模高质量数据(数据建设、数据合成等),训练和优化AI搜索模型,包括LLM post-train(SFT、RL、LongCoT、个性化对齐),回答富媒体化(图片、视频、自由画布),多模态问答(视频理解、VQA、VLM)等; 3、探索推进AI搜索前沿进展,包括智能Agent、Deep Research、Planning、工具建设和调用等。