理想汽车【理想+】机器学习性能工程师-上海
任职要求
1. 计算机科学、机器学习、数据科学或相关领域的硕士及以上学历; 2. 熟悉常用的数据结构和算法模型,熟悉 LLM/VLM/VLA 的训练和微调方法; 3. 熟练使用 PyTorch, JAX, TensorFlow 等框架; 4. 精通 Python/C/C++/CUDA 编程,具备数据结构和算法方面的实际经验; 5. 有大规模分布式并行优化,AI 算子优化,AI 编译优化等方面的经验。
工作职责
“理想+”是理想汽车面向全球招募优秀AI技术人才的校园招聘计划,涵盖大模型、AIGC、算法部署、推理加速、AI芯片研发等领域方向。理想汽车2023年实现千亿营收、百亿盈利。经过9年的发展,截至2024年6月理想汽车累计交付已突破80万辆。海量的用户规模和持续的盈利能力将支持理想汽车不断扩大在AI前沿技术领域的研发投入,保持从电动化到智能化的持续领先,把握时代机遇,成为全球领先的人工智能企业。 我们期待你的加入,与理想汽车一起成长、分享收获。通过人工智能技术去改变物理世界的效率和体验,造福我们服务的每一个家庭,以及家庭里的每一位成员。 本岗位的主要工作内容为: 1. 理解复杂的业务挑战,参与语言、视觉及多模态算法模型的训练和推理优化; 2. 研究当前业界领先的模型训练和推理加速方法(5D Parallelism, Attention 加速, KV Cache, Speculation, etc…)和模型轻量化(MoE, 压缩, 量化, etc…),不断提升算法性能; 3. 将研究从概念转化为部署和实施,开展算法和算力分析,促进软硬件协同优化工作。
-我们正在寻找一名机器学习高级工程师-AI推理方向。理想的候选人需要拥有深厚的ML推理知识和强烈的热情来 优化我们的模型,以最高效的利用我们的AI加速器的每一个FLOP和每一个字节的内存。 -我们的使命是解决自动驾驶难题。您将与才华横溢的软件工程师、机器学习工程师和研究科学家团队合作,推动最先进的自动驾驶人工智能。 1、为深度学习模型在小鹏定制的AI加速器上的部署做优化。 2、为小鹏的AI加速器编开发内核。 3、为关键内核的性能估计建立数学模型。
“理想+”是理想汽车面向全球招募优秀AI技术人才的校园招聘计划,涵盖大模型、AIGC、算法部署、推理加速、AI芯片研发等领域方向。理想汽车2023年实现千亿营收、百亿盈利。经过9年的发展,截至2024年6月理想汽车累计交付已突破80万辆。海量的用户规模和持续的盈利能力将支持理想汽车不断扩大在AI前沿技术领域的研发投入,保持从电动化到智能化的持续领先,把握时代机遇,成为全球领先的人工智能企业。 我们期待你的加入,与理想汽车一起成长、分享收获。通过人工智能技术去改变物理世界的效率和体验,造福我们服务的每一个家庭,以及家庭里的每一位成员。 本岗位的主要工作内容为: 1. 理解复杂的业务挑战,参与语言、视觉及多模态算法模型的训练和推理优化; 2. 研究当前业界领先的模型训练和推理加速方法(5D Parallelism, Attention 加速, KV Cache, Speculation, etc…)和模型轻量化(MoE, 压缩, 量化, etc…),不断提升算法性能; 3. 将研究从概念转化为部署和实施,开展算法和算力分析,促进软硬件协同优化工作。
1.负责研发和落实理想汽车下一代自动驾驶端到端VLA大模型算法,确保在车载和云端平台的成功部署。 2.专注于端到端大模型自动驾驶系统的算法开发和优化,包括但不限于端到端模型、多模态大模型等领域。 3.参与大规模自动驾驶数据集的处理、标注及管理,优化大模型以提升自动驾驶系统的性能。 4.持续关注并跟踪自动驾驶及人工智能领域的最新技术进展,进行技术调研及新技术的原型验证。
团队介绍:专注于探索AI和智能硬件的结合,为用户提供更自然和便捷的交互体验的研发团队,隶属于产品研发与工程架构部。作为负责AI技术应用场景探索的部门,是字节在智能硬件领域提供综合方案研究的核心部门。我们欢迎期待心怀技术理想、不断挑战技术难题的“你”的加入,和顶尖团队一起参与技术攻坚,开启更多可能。 课题介绍: 背景:目前移动端处理器均是非对称异构多核处理器(big.LITTLE架构),之前的调度器(类)大多基于Linux原生的公平调度算法CFS/EEVDF。自EAS引入后,才使调度器第一次具备了能耗感知能力,通过EM(能耗模型)来量化调度行为导致的CPU能耗变化,从而做出能耗更优的大小核调度。但随着应用生态的日益多样和CPU算力的快速升级,EAS也暴露了自身的设计不足,如: 1、EM模型参数需要通过实验室数据模拟设定,设定后无法修改; 2、不能针对不同的场景做精细化的预估和调节; 3、功耗模型应用时未考虑任务自身的的指令执行效率和特征分类,从而做出一些不恰当的选择等; 4、为了充分发挥异构多核处理器的能效优势,精准计算和指导SoC的能效优化,迫切需要结合异构硬件特性实现对CPU指令吞吐性能感知和能效动态预估,打造一个面向AI新生态和能效智能校准能力的调度器; 5、进一步的,通过对异构计算能力的指令级能耗分解,并结合未来的芯片技术发展趋势,可以实现范围更广的多算力设备联合调度和能效建模,从软硬结合的角度构造核心竞争力,将SoC能效优化推到极致。 课题挑战: 1、开销:系统中需要实时监控和统计指令特征等信息,引入的开销需要控制在最小的范围内; 2、硬件制约:部分平台,对外提供的AMU/PMU事件较少,寄存器数量有限,可能要做分时复用设计;异构多核系统以及cache的多级设定,对指令的执行效率和产生的能效有较大扰动,需要结合架构做灰盒建模; 3、复合场景:多窗口,多应用,悬浮窗等不同场景下,能耗模型的普适性和准确性。 目标: 1、游戏、动效等场景,帧率不变,功耗优化10%。