小米顶尖应届-OS Agent算法工程师-手机
任职要求
1. 硕士及以上学历在读,人工智能、计算机科学、电子、信息工程、机器人等专业,有C++/python开发经验 2. 熟练掌握至少一种深度学习框架,如Tensorflow,PyTorch等 3. 对深度学习有深刻认识,熟悉各种神经…
工作职责
1. 负责各类多模态大模型的预训练,微调和部署,并应用于实际业务中 2. 探索知识增强技术,通过个人数据提升个性化模型的语言理解和生成能力 3. 融合多模态数据,攻关具备自主观察环境和推断用户需求的意图决策大模型 4. 搭建基于端侧VLM的屏幕理解能力,实现具备泛场景能力的GUI Agent 5. 探索机器学习领域的新技术,探索与其他领域的技术融合。并撰写相关论文,专利
1. 负责各类多模态大模型的预训练,微调和部署,并应用于实际业务中; 2. 探索知识增强技术,通过个人数据提升个性化模型的语言理解和生成能力; 3. 融合多模态数据,攻关具备自主观察环境和推断用户需求的意图决策大模型; 4. 搭建基于端侧VLM的屏幕理解能力,实现具备泛场景能力的GUI Agent; 5. 探索机器学习领域的新技术,探索与其他领域的技术融合。并撰写相关论文,专利。 【课题名称】 OSAgent能力预研:记忆、决策与操控 【课题内容】 1. 记忆:端侧持续进化的数字人格; 2. 决策:精准意图预测的主动智能; 3. 操控:人车家全生态的泛在操控。
1. 负责各类多模态大模型的预训练,微调和部署,并应用于实际业务中 2. 探索知识增强技术,通过个人数据提升个性化模型的语言理解和生成能力 3. 融合多模态数据,攻关具备自主观察环境和推断用户需求的意图决策大模型 4. 搭建基于端侧VLM的屏幕理解能力,实现具备泛场景能力的GUI Agent 5. 探索机器学习领域的新技术,探索与其他领域的技术融合。并撰写相关论文,专利
团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包括但不限于: 1. 视频生成:负责视频生成技术的前沿技术的研究,对AIGC的diffusion和auto-regressive技术有深入了解,在T2I/AIGCT2V/I2V上面有一定的研究,图文对齐,长视频生成等有一定的研究,做好视频生成在高德业务(广告,POI详情页等)中的进行落地。 2. 视频理解:能够使用和优化多模态大模型对用户上传的视频进行质量理解,标签,densecaption,视频summary等生成,作用到视频的搜索,广告,推荐等业务的落地。 3. 世界模型: 参与世界模型的构建,能够使用最新的视频生成技术,3D技术等构建符合人类物理规律的统一的世界模型,在高德的业务进行落地。 4. 紧跟技术前沿和技术沉淀,形成顶会论文和专利。