logo of bytedance

字节跳动算法工程师(大模型推理加速方向)-业务中台

社招全职A195756地点:北京状态:招聘

任职要求


1、计算机科学与技术、电子信息、自动化、数学等相关专业,硕士及以上学位,博士学位或有相关领域突出成果者优先;
2、精通大模型蒸馏、量化、协同推理等技术原理,熟悉主流深度学习框架(如TensorFlowPyTorchONNX等),具备扎实的机器学习深度学习理论基础和丰富的算法开发经验;
3、有大模型推理加速相关项目经验,熟悉模型压缩、轻量化部署流程,能熟练使用PythonC/C++等编程语言进行算法实现和性能优化;
4、了解常见的硬件架构(如GPU、CPU、FPGA等)及其计算特性,具备一定的硬件编程能力(如CUDA编程),能够针对不同硬件平台进行推理加速适配;
5、具备优秀的逻辑思维能力、问题解决能力和创新意识,能够快速学习和掌握新技术;良好的团队协作精神和沟通能力,能在跨部门协作中高效推进项目。

工作职责


1、负责大模型蒸馏、量化、协同推理等加速技术的研究与开发,深入分析现有算法的优缺点,结合公司业务需求,设计创新的加速算法和优化方案,提升大模型推理效率;
2、运用蒸馏技术压缩大模型规模,在保持模型性能的前提下降低计算复杂度;通过量化技术减少模型参数和计算量,实现模型在不同硬件平台上的高效部署;探索协同推理技术,优化多模型、多设备间的协同计算流程,提高整体推理性能;
3、建立大模型推理性能评估指标体系,对加速后的模型进行全面测试和分析,通过实验验证算法效果,持续优化推理加速方案,确保模型在实际应用中满足响应速度和资源消耗要求;
4、与模型研发团队紧密合作,深入了解大模型结构和特点,针对性地开展推理加速工作;协同硬件开发、工程部署团队,解决模型在不同硬件环境下的适配和性能瓶颈问题,推动推理加速技术在产品中的落地应用;
5、密切关注大模型推理加速领域的最新技术动态和研究成果,探索新技术、新方法在公司业务中的应用可能性,保持公司在该领域的技术领先优势。
包括英文材料
学历+
大模型+
深度学习+
TensorFlow+
PyTorch+
ONNX+
机器学习+
算法+
Python+
C+
C+++
FPGA+
CUDA+
相关职位

logo of meituan
校招核心本地商业-业

研究方向一:大模型智能体Agent技术研究​ ​1.研究多轮长对话中的上下文管理技术,提高模型的连贯性和一致性,并探索基于用户特征和历史交互的定制对话策略,设计针对特定业务场景的微调和适应技术,提升模型在实际应用中的表现。​ 2.探索智能体调用和使用多个外部工具的方法,通过端到端后训练的方式增强其解决实际问题的能力。深度研究智能体的自我评估和学习机制,实现智能体的持续优化和能力提升。​ 3.优化LLM长链路的多轮工具调用能力,提升工具调用时的精确性及用户的实际交互体验。​ 4.设计并完善针对特定任务场景的Auto-Eval能力,指导模型迭代方向。 研究方向二:深度搜索(Deep Search/Research)技术研究​ 1.研究面向深度搜索场景的工具学习方法,基于SFT/RLHF后训练算法赋予搜索智能体高效的工具调用能力。​ 2.对齐行业最前沿的研究进展,深入研究不同工具调用环境下的大模型后训练能力边界,并基于实际业务场景进行迭代优化。​ ​研究方向三:多模态基础模型能力建设​ 1.研究多模态数据(文本、语音、图像等)的语义融合与表示方法,提升模型对复杂内容的理解能力。 2.探索多模态模型在推理任务中的表现,研究如何通过工具调用增强模型的推理能力。​ 3.设计高效的多模态模型架构,优化模型的参数规模、训练效率和推理性能,提升基础模型的通用性与适应性。 ​研究方向四:大模型分布式后训练及推理加速技术​ 1.后训练方向:样本IO吞吐优化:使用多线程读取、数据管道流水线编排、数据压缩等技术,实现分布式环境下高性能的样本IO pipeline;​计算图编译与高效执行:通过图编译、Kernel优化、算子融合等手段,提升计算图的执行效率;高性能并行训练:包括DP/TP/PP/SP/CP/EP等并行策略及其他训练超参数的自动寻优,故障自动恢复,弹性计算等;强化学习训练效率优化:通过rollout速度优化、多模型多阶段流水线编排、负载均衡等手段优化RL训练效率。 2.推理加速方向:负责实现和优化大模型在线推理系统,提升推理性能,包括不限于:架构设计、算子开发、通信优化等; 研究并实现各种模型推理加速手段如并行策略、混合精度、MOE、FP8等技术,加速模型推理速度; 设计和开发高效的离线、在线推理系统,优化SGLang、vLLM等推理框架,加速整体推理性能。

更新于 2025-05-23
logo of 360
校招算法类

主要负责大模型评测体系构建、性能分析及优化工作,要求候选人具备Agent深度定制开发能力,掌握提示词微调和模型部署推理加速技术,致力于提升大模型在实际业务场景中的性能表现。 1. 算法研究与优化 - 研究和跟踪人工智能领域的前沿技术发展,包括但不限于大语言模型、计算机视觉、多模态融合等方向 - 针对业务场景优化现有AI算法,提升模型性能、效率和部署可行性 - 参与创新算法原型的构建和验证实验 2. 应用场景落地 - 深入理解业务需求,将AI技术与实际应用场景结合 - 设计并实现算法到产品的转化路径,解决落地过程中的技术挑战 - 优化模型在真实环境中的性能表现,包括精度、速度、资源占用等方面 3. 效果评估与迭代 - 设计科学的评估方法,量化算法性能和业务价值 - 收集用户反馈和业务数据,持续迭代优化算法 - 撰写技术文档和研究报告,分享研究成果和应用经验

更新于 2025-09-02
logo of antgroup
社招3年以上技术类-算法

● 参与生成式人工智能在蚂蚁国际业务特别是金融相关业务的探索和应用工作,包括方案调研与设计,构建指标和评测体系,模型训练与调优,效果评测与持续跟踪,大模型推理加速等大模型应用的全流程实际落地工作 ● 参与数据生产、模型训练、评测体系建设,推理优化等多个环节的代码库开发工作,结合蚂蚁国际的大模型应用平台和基础设施,结合实际工作和业务需要进行工具链的开发和维护 ● 参与到蚂蚁国际的多项海外业务之中,进行跨团队合作,深入理解 AI 在蚂蚁国际中的金融应用场景,并通过将业务和技术的深度结合进行创新,打造在国际化场景中的金融人工智能。 ● 跟进业界前沿的大模型研究和应用进展,特别是生成式人工智能的应用场景和创新形态,并探索在实际业务场景中应用落地的可能性, ● 积累工作成果,沉淀最佳实践,发表论文及专利,提升技术影响力

更新于 2025-06-05
logo of aliyun
社招1年以上技术类-算法

负责智能客户运营等多个产品的算法研发与落地,机器学习建模、前沿技术追踪、大语言模型Large Language Model (LLM) 技术在各垂类业务场景落地的核心技术攻坚等。 比如智能运营助手、营销答疑助手、营销Agentic Workflows构建等场景的大模型落地,提升内外部用户的服务效率和用户体验。 职位描述: ‒ 负责基于通用基座大模型结合领域数据构建营销服务领域大模型,包括但不限于如下场景的营销LLM关键技术攻坚: 1. 大模型落地业务场景识别 2. 垂域数据清洗 / 构造 3. 垂域LLM的后训练 4. 搜索增强RAG 5. LLM Agents 6. LLM推理加速 ‒ 探索基于大模型技术的营销场景服务新形态,包括多场景下的大模型对话机器人、智能辅助Copilot、Agentic Workflow大模型在实际业务场景中的落地,打造营销领域的AI Agent标杆。

更新于 2025-06-19