logo of ke

贝壳python开发工程师(GUI工程方向)(J67024)

社招全职3年以上质量架构部地点:北京状态:招聘

任职要求


1、计算机、通信等专业本科以上学历,3年以上工作经验
2、基本功扎实、编码习惯优秀,熟练掌握Python开发语言,深入了解语言特性,数据结构算法,体系结构等计科知识出色;
3、熟悉Web前后台开发技术栈,有大模型/agent/知识库等工程化应用经验;

加分项:
1.基于多模态大模型的上层应用开发,了解RAG工…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.参与基于多模态大模型的GUI智能化能力的设计开发,实现多端(web/安卓/ios/鸿蒙/小程序)大模型手眼配套能力全覆盖;
2.跟踪业界前沿技术发展,参与大模型应用评测、企业内部场景化落地、GUI智能体建设等;
包括英文材料
学历+
Python+
数据结构+
算法+
Web+
还有更多 •••
相关职位

logo of bytedance
社招T9813

招聘介绍:通过GUI,VUI等多种交互形态连接用户与服务,让人工智能在抖音、西瓜视频、今日头条、教育、办公等多个产品上实现智能价值,提升用户体验,实现商业价值。在这里你有机会同全球顶尖的AI科学家合作,接触最前沿的技术,并为服务于全球数亿人的人工智能产品提供质量保障。 1、负责语音/图像产品前端及服务端项目交付的质量把控; 2、负责语音/图像算法迭代质量体系的建设,及算法效果评测及算法竞对的评测; 3、负责语音/图像模型、推理引擎、服务测试框架的搭建; 4、负责测试场景和测试用例的设计,测试工具的设计、开发和标准化输出。

更新于 2023-09-22北京
logo of alibaba
社招2年以上

关于我们 我们致力于打造具备“感知-理解-规划-行动”闭环能力的下一代多模态 AI Agent:团队聚焦 GUI Agent(图形用户界面智能体) 与 多模态交互能力 的前沿探索,让 Agent 不仅能“看懂”屏幕、理解用户意图,还能自主操作界面、完成任务,真正实现从“问答助手”到“执行代理”的跃迁。我们相信,多模态感知与 GUI 操作能力是 Agent 走向通用智能的关键一步。期待你加入,共同将“看得见、做得对”的智能体能力转化为业务核心竞争力。 你将获得什么 ● 在真实的业务场景中探索GUI Agent的价值:在淘宝、千牛等页面复杂、流量巨大的电商APP中,规模化的落地GUI Agent,自动完成消费者、商家、公司内部产研同学的任务。也可以让GUI Agent成为其他各种业务Agent的工具,让各种Agent具备视觉感知和GUI操作能力。 ● 充分探索多模态大模型理解与规划能力的极限:让大模型理解电商垂域场景异常复杂的任务指令、UI界面,使用包括但不限于自动化轨迹数据生成、模型训练、多模态记忆系统、multi-agent架构设计等多种手段,构建最懂电商域的GUI Agent ● 充分的业务场景真实数据与计算资源:团队训练资源充足,能在不同架构/不同规模模型上完成微调、对齐与能力专项提升,并形成可复用的训练范式,充分利用各种开源/闭源模型的能力。 ● 个人技术成长:支持多元化方向发展,鼓励对外分享与论文/专利沉淀。 岗位职责 1.主导基于大模型的AI Agent全生命周期研发,重点聚焦多模态Agent建设,包括但不限于GUI Agent/图文理解Agent/图文评估Agent,构建具备视觉感知和推理能力的多模态Agent应用; 2.运用SFT、RL等Post-training训练方法,探索多模态与RL的结合,提升大模型/多模态大模型在自主规划(Planning)、多步推理、多模态RAG、工具调用、UI界面理解、复杂图文理解、局部细节感知等方面的能力; 3.跟踪LLM、VLM与Agent领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点突破任务规划与复杂推理、研发测试自动化、computer use、大规模商品图文分析、图文细节理解与评估等方向的应用创新; 4.持续优化多模态能力与已有Agent架构的集成,快速构建具备多模态能力的Agent应用,提升Agent系统性能与效率,提供AI Agent技术方案。

更新于 2026-01-28杭州
logo of vivo
校招

vivo AI研究院致力于研发业界领先的人工智能技术,通过AI技术创新持续为全球5亿+vivo用户带来无处不在的惊喜和激动人心的智慧体验。 1、负责端侧AI Agent架构研发设计与预研算法落地,包括视觉感知、自动化技能、GUI Agent等方向; 2、根据项目任务计划完成软件高质量编码工作,并对难点进行攻关; 3、持续预研优化高效安全的AI智能体技术,提升服务性能、稳定性和安全可靠性; 4、建设和优化端侧AI能力开放体系,使能系统智能化。

更新于 2025-06-14深圳|杭州
logo of antgroup
社招3年以上技术类-算法

1. 遥操作系统开发: ‒ 设计并实现机器人遥操作系统的核心功能,包括实时控制、低延迟通信和人机交互模块; ‒ 开发和优化远程控制算法,确保系统的响应速度和精确性。 2. 通讯与数据传输: ‒ 实现高效的远程通信协议(如TCP/IP、UDP、WebRTC),优化数据传输的低延迟和高可靠性; ‒ 处理远程视频流传输、传感器数据融合以及控制信号反馈。 3. 系统集成: ‒ 集成机器人硬件(如机械臂、移动平台、无人机)与遥操作软件模块; ‒ 实现机器人与远程操作终端之间的无缝交互。 4. 人机交互开发: ‒ 开发直观的遥操作界面(GUI)或VR/AR交互系统,提升用户的操作体验; ‒ 设计力反馈、触觉反馈等增强操控感知的功能。 5. 仿真与测试: ‒ 基于仿真工具(如Gazebo、V-REP、Unity)设计并测试遥操作系统; ‒ 在实际场景中测试系统性能,确保其稳定性和可靠性。 6. 系统优化与迭代: ‒ 分析遥操作过程中出现的问题,优化系统性能; ‒ 实现智能化辅助功能(如路径规划、碰撞检测、自动校准等)。 7. 技术文档撰写: ‒ 编写清晰的技术文档,包括设计方案、开发流程和操作手册; ‒ 为团队成员提供技术支持与培训。

更新于 2026-02-10上海