智能互联业务技术-AI Agent 优化工程师（评测方向）-用户场景营销

社招全职1年以上2026-04-08地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 学历背景：硕士及以上学历，计算机、人工智能、软件工程、数据科学或相关专业；
2. 技术能力：
a. 评测体系设计：具备评测体系设计能力，能将业务目标转化为可量化、科学、全面的技术指标；
b. 工程能力：熟练掌握Python/Java等编程语言，具备工程化开发能力，有自动化评测工具或平台开发经验者优先；
c. 数据分析与优化：分析模型缺陷，提出调优建议，协助agent开发团队改进;
d. 工具与指标：熟练使用SQL、数据分析工具，熟悉A/B测试、模型可解释性方法等；
e. 技术理解：熟悉大模型基础原理（Tr…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

在大模型与智能体（Agent）成为核心交付形态的趋势下，我们亟需构建科学、高效、贴合业务目标的AI评测能力，驱动Agent能力持续突破上限。作为AI评测工程师，你将深度参与从需求定义到上线监控的全生命周期，打造覆盖能力、鲁棒性、安全性与业务价值的多维评测体系。
具体你将负责：
1. 设计并落地面向真实业务的 Agent 评测体系：针对多步推理、工具调用、代码生成、记忆管理、多Agent协作等核心能力，构建覆盖准确性、鲁棒性、一致性、安全性、执行效率等的多维评估标准与场景化 Benchmark；
2. 构建高质量动态评测数据集：基于真实业务轨迹、合成数据（Synthetic Data）、对抗样本与失败案例（Badcase），持续演进评测集，探索 Agent 能力边界；
3. 研发自动化、高扩展的评测框架与工具链流水线：实现数据管理、指标计算、结果分析与可视化的一站式支持，提升评测效率；
4. 深度分析评测结果：精准定位Agent在推理、规划、记忆、工具使用等环节的缺陷，输出结构化诊断报告与优化建议，推动agent开发团队持续迭代；
5. 评测流程标准化建设：参与AI项目全流程，从需求阶段提供评测支持到上线后的持续观测，保障评测环境稳定性、数据质量与结果可复现性
6. 跟踪LLM与Agent前沿技术（如ReAct、Plan-and-Execute、Self-Reflection等），研究并引入先进评测方法（参考GAIA、AgentBench等行业基准）；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

数据科学+

Python+

Java+

数据分析+

AI agent+

SQL+

还有更多 •••

登录查看完整学习资料

相关职位

业务技术-Agent算法工程师-记忆召回

社招3年以上

关于我们我们在淘天复杂业务场景中打造“可持续进化”的 AI Agent：不仅能回答问题，更能会学、记住、自我纠错。团队聚焦 Agent 记忆系统 + AI 搜索/知识召回两大方向，在客服、商家经营助理等高复杂场景应用落地，形成了从数据闭环、训练体系到线上评测与迭代的完整链路。我们相信记忆是下一代 Agent 的分水岭：我们已搭建自研记忆架构，并在多个内部/公开基准上取得领先效果；期待你一起把“记忆”从技术能力升级为业务护城河。你将获得什么 ● 前沿研究与真实业务同频：围绕记忆结构设计、记忆更新机制、Memory RL/记忆 Agent 等方向做系统化探索，并能快速进入线上验证闭环。 ● 可发挥的技术纵深：从表征/倒排/图索引到多跳检索与路径级训练，从 RAG 到 Agent 记忆规划，既能做算法突破，也能做系统化落地。 ● 高影响力的场景与数据闭环：直接面向真实用户与高并发线上系统，问题复杂但反馈链路清晰，能快速沉淀可复用的技术资产与方法论。 ● 开放的成长路径：支持多元化方向发展，鼓励对外分享与论文/专利沉淀。岗位职责 1、主导基于大模型的 AI Agent 全生命周期研发，包括通用型及垂直领域 AI Agent 的应用架构设计、数据构建、模型训练与评测； 2、运用 SFT、RL 等 Post-training 训练方法，提升大模型在自主规划（Planning）、多步推理、RAG 增强生成、工具调用、数据问答等方面的能力； 3、重点探索 AI 搜索技术在电商经营知识问答场景的应用落地，优化表征/倒排/图索引的知识召回效果，通过路径级数据的 SFT 训练 + 强化学习微调，提升Agent自主搜索与精准问答能力； 4、围绕记忆结构与记忆更新机制开展核心研发：探索前沿 Memory RL 方案，设计高效记忆 Agent 优化更新策略，并推动团队原创记忆图结构在业务中的规模化落地； 5、持续优化 Agent 算法与系统架构，构建面向问答和 AI 搜索场景的端到端智能体评测体系，开发自动化评估工具与多维评价指标，提升系统性能与效率。

更新于 2026-01-28杭州

蚂蚁集团-大模型算法工程师(智能评测)-北京【AI Force】

社招5年以上技术类-算法

我们是致力于推动智能化服务技术革新的创新团队，专注于为全行业提供高效、智能的解决方案。我们的业务涵盖智能客服、智能培训、智能质检等多个领域。我们团队正在建设“评测数字员工”，旨在通过标准化、智能化的评测手段，推动AI智能服务的全面升级，并打造行业领先和有代表性的评测体系与benchmark。如果你对AI、NLP、数据挖掘、评测等领域充满热情，并希望在一个充满挑战与机遇的环境中快速成长，那么加入我们，一起定义未来智能化服务的新标准！【职位描述】 1. 评测体系设计：参与设计并优化智能化服务（包括智能客服、智能培训、智能质检等）的评测体系，涵盖对话质量、操作质量、培训效果、拟人化、用户满意等核心指标。 2. 评测开发与优化： ○ 研发并优化基于LLM-as-Judge的评测能力，包括但不限于对话生成质量评估、意图识别准确率、多轮对话一致性等。 ○ 探索agent在复杂任务中的性能评测方法，如任务规划、SOP遵循、RAG、多模态交互等。 3. Red-team：针对agent系统的弱点进行攻击，找到系统潜在的风险，防患于未然。 4. Benchmark构建：构建并维护智能化服务领域的代表性benchmark，确保评测标准的科学性与可扩展性。 5. 数据驱动决策：通过数据分析与挖掘，识别智能化服务系统的性能瓶颈，并提出改进方案。 6. 跨业务协作：与多个智能体研发团队、产品团队紧密合作，确保评测体系与业务需求的高度匹配，推动产品的持续优化。 7. 技术前沿探索：跟踪智能化服务领域的最新技术动态，探索并落地创新评测方法。

更新于 2025-09-18北京

多模态算法工程师（Agent方向）-智能创作

社招32N1

团队介绍：智能创作团队是字节跳动的创作场景业务中台，以AI赋能创造，致力于通过AI技术降低创作门槛，赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线，持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景，通过由AI驱动的智能化工具与算法，为用户提供了更智能、更便捷、更丰富的创作体验，助力普通用户轻松实现高质量内容创作，同时为专业创作者提供强大的技术支持，推动内容生态的繁荣与创新。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术； 2、基于通用大模型，结合创作垂类应用场景，进行相关的数据建设、指令微调、偏好对齐、模型优化，升数据合成、模型推理 & 规划能力，构建全面客观准确的评测体系，探索提升垂类大模型能力； 3、探索突破包括而不限于多模态RAG，视觉COT与Agent等在内的多模态模型、世界模型进阶能力，构建以智能创作为核心的多模态AI Agent；推动相关的新技术、新产品落地。

更新于 2020-06-30深圳

大语言模型AI Video Agent算法工程师-剪映CapCut-筋斗云人才计划

校招A101228

团队介绍：字节跳动剪映研发团队，主要支持剪映、醒图、Faceu 等多款国内外产品的研发工作，业务覆盖多元化影像创作场景，截止2021年6月，相关产品多次登顶国内外App Store 免费应用榜第一，并继续保持高速增长。加入我们，一起打造全球最受用户欢迎的影像创作产品。课题介绍： 1）课题背景： 1、数字化营销时代，企业对高质量、多样化营销素材的需求呈爆发式增长。从社交媒体图文到短视频广告，从个性化推荐文案到多模态互动内容，营销场景的复杂化与用户需求的碎片化对素材生成效率、创意水平和精准度提出了更高要求。传统依赖人工策划与设计的模式成本高、周期长，难以满足实时化、动态化、规模化的业务需求。尽管生成式AI（AIGC）技术（如GPT等）已在文本、图像生成领域取得突破，但在营销场景中仍面临创意适配性差、多模态协同能力弱、品牌一致性难保障等瓶颈。本课题旨在研发“创作领域Agent”，通过智能技术实现从策略洞察到内容生产的全链路自动化，推动营销效率与效果的革命性升级。 2、随着大语言模型、多模态模型等大模型的成熟，通过视觉理解、语音识别、文本生成等AI大模型能力，提升视频剪辑效率，基于创作者的需求和创意，高效的创作出炫酷、个性化的视频成为了可能。当前行业虽已有部分智能剪辑工具，但大多局限于规则化操作，成片或缺乏对用户意图的理解，效果同质化，或缺乏成片逻辑与情感，机械堆砌素材。本课题旨在研究适合视频剪辑的大模型技术，结合剪映平台的强大剪辑能力和效果，打造一个智能剪辑的智能体（Agent），赋能自媒体内容生产、影视工业化、广告营销等场景。 2）课题挑战： 1、创意与商业价值的平衡：AI生成内容易陷入同质化，需突破算法在品牌调性理解、用户情感共鸣、营销目标对齐等方面的局限，确保创意兼具新颖性与商业转化价值。 2、多模态动态协同：文本、图像、视频等模态的生成需实现语义与风格的跨模态对齐，且需支持动态组合与实时迭代（如根据用户反馈即时优化素材）。 3、复杂场景泛化能力：营销场景高度细分（如电商促销、品牌故事、危机公关），Agent需具备上下文感知与领域迁移能力，避免“一刀切”生成策略。 4、计算效率与资源限制：高分辨率视觉素材生成、多版本AB测试等场景对算力需求极高，需优化模型轻量化与推理速度，满足企业级部署的可行性。 5、伦理与合规风险：需解决版权争议（如AI生成素材的版权归属）、内容安全（如虚假宣传、文化敏感性）等问题，构建可信可控的生成框架。 6、视频数据复杂性远超图片和文字，巨量的用户素材，要通过大模型去精准理解，并与图片、音频、文字等多模态特征统一，对多模态模型理解能力和推理优化，提出了极高要求。 7、大模型对素材编排和剪辑的结果，可能偏离用户真实意图，既要避免输出模板化、同质化，又要结合用户个性化和创意，在风格、节奏等维度上加入“人性化创意”。 8、大参数模型训练成本高，推理慢，如何通过模型优化、工程优化等手段，给移动端、PC等终端用户极致的体验，也是课题的一大挑战。 1、负责剪映CapCut的AI视频编辑方向的Agent模型训练与评测，使用SFT/RLHF/Post-training等技术对视频创作进行领域知识建模； 2、提升视频创作Agent大模型的增强模型和安全能力的指令遵从能力、提升Pre-trained Model在视频创作的能力，构建行业领先的视频创作专家的智能Agent。

更新于 2025-05-26深圳