logo of alibaba

阿里巴巴1688-评测算法工程师-Agentic AI

社招全职2年以上地点:杭州状态:招聘

任职要求


- 计算机科学/AI等相关专业硕士及以上学历,对agentic ai/ LLM技术高度热情;
- 精通Python编程,熟练掌握PyTorch/TensorFlow等深度学习框架;
- 熟悉主流语言大模型技术…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


- 构建并完善大模型评测体系,包括评测标准制定,评测工具链开发和评测数据集建设;
- 基于agentic业务需求设计评测方案,开展多维度模型评估,输出专业评测报告;
- 参与Agent /工具调用 在垂直领域的算法工程化实现及性能评估研究;
- 沉淀业务专家知识到 reward/critic 层面实现LLM-as-judge,沉淀长链数据资产;
包括英文材料
学历+
大模型+
Python+
还有更多 •••
相关职位

logo of ke
社招3年以上质量架构部

1.参与基于多模态大模型的GUI智能化能力的设计开发,实现多端(web/安卓/ios/鸿蒙/小程序)大模型手眼配套能力全覆盖; 2.跟踪业界前沿技术发展,参与大模型应用评测、企业内部场景化落地、GUI智能体建设等;

更新于 2025-03-27北京
logo of alibaba
社招3年以上技术类-前端

1.负责alibaba国际站 数字营销的前端架构设计及研发,保障系统的安全、可扩展以及质量和性能,与PD、UED、Java 工程师协作,完成设计交互实现、数据交互、动态信息展现 2.关注用户体验,与合作方一起不断改进产品的易用性;运用AI能力重塑 广告后台BP、广告前台创意 的产品形态,提升用户体验和客服效能 3.研究和探索创新的开发思路和新的前端技术,结合业务特点创新应用AI技术,解决前端团队开发过程中面临的各类问题,提升个人和团队的开发效能 4.参与跨境B类全球化创意中心的规划建设,包括可视化制作、可视化渲染、D2C、自动化审核、自动化生产、智能诊断等,推动协助相关团队并落地未来产品和系统规划

更新于 2025-04-02杭州
logo of baidu
社招MEG

-负责百度产品的测试工作和参与自动化测试服务平台开发 -根据产品需求对服务端系统进行测试,包括测试设计、执行、BUG提交和追踪,测试报告等 -开发测试工具和自动测试框架、自动测试脚本,进行自动化测试 -对项目开发流程和工具进行优化,提高RD和整个项目的交付效率 -为开发组开发和维护高效的持续集成、测试框架和工具,提高开发工作效率和提测代码质量,并参与代码评审 -协助开发定位问题 -根据项目过程中的体验对产品提出改进建议以提升用户感受,并进行竞品对比评测 -学习和研究新技术以提高测试的效率和质量,满足质量保证的需求

更新于 2025-04-10北京
logo of netease
社招网易有道

1. 面向有道词典、词典笔、学习规划/小P老师等产品线,负责 Agent 能力的整体方案与核心算法研发,包括任务分解、计划-执行/反思循环(Plan-Execute / ReAct / Reflection)、长短期记忆与工具路由等; 2. 负责 SLM(Small Language Model)持续预训练与指令微调(SFT),构建高效压缩与蒸馏方案,面向端侧/低延迟场景优化推理效率; 3. 设计与实现工具调用(Function/Tool Calling)体系:工具编目与路由、参数填充、结果验证与回退、调用链追踪与可观测性,提升工具使用的成功率与收益; 4. 基于强化学习(PPO/GRPO/DPO 类方法等)与奖励建模,面向语义理解、工具使用成功率、内容生成质量等目标进行对齐与优化,支持离线/在线策略迭代; 5. 负责搜索与排序相关模型:语义检索embedding/rerank、学习排序(pointwise/pairwise/listwise)、点击/转化信号建模与评估; 6. 负责数据全链路:高质量数据构建、策略采样、合成与清洗、去重与去噪、难例挖掘、失败案例回放及工具轨迹数据集构建; 7. 建立系统化评测体系:离线基准(理解/工具成功率/可用性)、端到端任务评测、A/B 实验与线上指标监控,推进效果持续迭代; 8. 推动工程化落地:训练管线与分布式并行、推理服务化与弹性扩缩、缓存与检索加速、成本/时延/稳定性优化; 9. 跨团队协作,与产品、工程、数据及标注团队紧密配合,按期高质量交付,持续提升用户体验与业务指标。

更新于 2025-12-21北京