logo of bytedance

字节跳动算法工程师(大模型推理加速方向)-业务中台

社招全职A195756地点:北京状态:招聘

任职要求


1、计算机科学与技术、电子信息、自动化、数学等相关专业,硕士及以上学位,博士学位或有相关领域突出成果者优先;
2、精通大模型蒸馏、量化、协同推理等技术原理,熟悉主流深度学习框架(如TensorFlowPyTorchONNX等),具备扎实的机器学习、深度学习理论基础和丰富的算法开发经验;
3、有大模型推理加速相关项目经验,熟悉模型压缩、轻量化部署流程,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责大模型蒸馏、量化、协同推理等加速技术的研究与开发,深入分析现有算法的优缺点,结合公司业务需求,设计创新的加速算法和优化方案,提升大模型推理效率;
2、运用蒸馏技术压缩大模型规模,在保持模型性能的前提下降低计算复杂度;通过量化技术减少模型参数和计算量,实现模型在不同硬件平台上的高效部署;探索协同推理技术,优化多模型、多设备间的协同计算流程,提高整体推理性能;
3、建立大模型推理性能评估指标体系,对加速后的模型进行全面测试和分析,通过实验验证算法效果,持续优化推理加速方案,确保模型在实际应用中满足响应速度和资源消耗要求;
4、与模型研发团队紧密合作,深入了解大模型结构和特点,针对性地开展推理加速工作;协同硬件开发、工程部署团队,解决模型在不同硬件环境下的适配和性能瓶颈问题,推动推理加速技术在产品中的落地应用;
5、密切关注大模型推理加速领域的最新技术动态和研究成果,探索新技术、新方法在公司业务中的应用可能性,保持公司在该领域的技术领先优势。
包括英文材料
学历+
大模型+
深度学习+
TensorFlow+
PyTorch+
ONNX+
还有更多 •••
相关职位

logo of meituan
校招核心本地商业-业

研究方向一:大模型智能体Agent技术研究​ ​1.研究多轮长对话中的上下文管理技术,提高模型的连贯性和一致性,并探索基于用户特征和历史交互的定制对话策略,设计针对特定业务场景的微调和适应技术,提升模型在实际应用中的表现。​ 2.探索智能体调用和使用多个外部工具的方法,通过端到端后训练的方式增强其解决实际问题的能力。深度研究智能体的自我评估和学习机制,实现智能体的持续优化和能力提升。​ 3.优化LLM长链路的多轮工具调用能力,提升工具调用时的精确性及用户的实际交互体验。​ 4.设计并完善针对特定任务场景的Auto-Eval能力,指导模型迭代方向。 研究方向二:深度搜索(Deep Search/Research)技术研究​ 1.研究面向深度搜索场景的工具学习方法,基于SFT/RLHF后训练算法赋予搜索智能体高效的工具调用能力。​ 2.对齐行业最前沿的研究进展,深入研究不同工具调用环境下的大模型后训练能力边界,并基于实际业务场景进行迭代优化。​ ​研究方向三:多模态基础模型能力建设​ 1.研究多模态数据(文本、语音、图像等)的语义融合与表示方法,提升模型对复杂内容的理解能力。 2.探索多模态模型在推理任务中的表现,研究如何通过工具调用增强模型的推理能力。​ 3.设计高效的多模态模型架构,优化模型的参数规模、训练效率和推理性能,提升基础模型的通用性与适应性。 ​研究方向四:大模型分布式后训练及推理加速技术​ 1.后训练方向:样本IO吞吐优化:使用多线程读取、数据管道流水线编排、数据压缩等技术,实现分布式环境下高性能的样本IO pipeline;​计算图编译与高效执行:通过图编译、Kernel优化、算子融合等手段,提升计算图的执行效率;高性能并行训练:包括DP/TP/PP/SP/CP/EP等并行策略及其他训练超参数的自动寻优,故障自动恢复,弹性计算等;强化学习训练效率优化:通过rollout速度优化、多模型多阶段流水线编排、负载均衡等手段优化RL训练效率。 2.推理加速方向:负责实现和优化大模型在线推理系统,提升推理性能,包括不限于:架构设计、算子开发、通信优化等; 研究并实现各种模型推理加速手段如并行策略、混合精度、MOE、FP8等技术,加速模型推理速度; 设计和开发高效的离线、在线推理系统,优化SGLang、vLLM等推理框架,加速整体推理性能。

更新于 2025-05-23北京
logo of 360
校招算法类

主要负责大模型评测体系构建、性能分析及优化工作,要求候选人具备Agent深度定制开发能力,掌握提示词微调和模型部署推理加速技术,致力于提升大模型在实际业务场景中的性能表现。 1. 算法研究与优化 - 研究和跟踪人工智能领域的前沿技术发展,包括但不限于大语言模型、计算机视觉、多模态融合等方向 - 针对业务场景优化现有AI算法,提升模型性能、效率和部署可行性 - 参与创新算法原型的构建和验证实验 2. 应用场景落地 - 深入理解业务需求,将AI技术与实际应用场景结合 - 设计并实现算法到产品的转化路径,解决落地过程中的技术挑战 - 优化模型在真实环境中的性能表现,包括精度、速度、资源占用等方面 3. 效果评估与迭代 - 设计科学的评估方法,量化算法性能和业务价值 - 收集用户反馈和业务数据,持续迭代优化算法 - 撰写技术文档和研究报告,分享研究成果和应用经验

更新于 2025-09-02北京
logo of alibaba
社招1年以上

我们致力于在电商交易生态中,定义下一代AI驱动的服务范式。你将作为核心成员,负责打造具备高情商、强逻辑、高可靠性的 Service Agent。我们不仅是在做小蜜智能对话机器人,更是通过大模型技术重塑数亿用户的智能服务办理流程,构建电商服务领域的“数字大脑” 1. Agent应用架构设计与落地:负责电商服务领域复杂服务场景(如小蜜、纠纷&赔付、服务风控),设计并搭建具备多步推理、工具调用能力的 Agent 架构,负责核心产品的workflow设计,解决智能服务长链路以及多链路协作难点; 2. 构建高可用智能服务系统:主导Agent算法工程的应用落地,涵盖向量库选型、多路召回策略实现、Context Engineering以及工具调用的精准控制。负责大模型推理加速、响应延迟及成本路由控制。提升复杂商业场景下的问题解决率及落地稳定性; 3. Agent系统效果评测与迭代:针对电商服务中的高置信度场景,构建 Service Agent 专属评估体系(Benchmark)及全链路自动化评测体系,通过数据工程手段优化Prompt工程与知识库质量,确保Agent 输出符合服务严谨性要求; 4. 前沿技术探索与转化:探索多智能体协作(Multi-Agent)、多模态融合和Self-Evolving等前沿方向,鼓励将学术界的最新成果快速转化为可落地的产品能力。

更新于 2026-03-26杭州
logo of aligenie
社招1年以上

我们致力于在电商交易生态中,定义下一代AI驱动的服务范式。你将作为核心成员,负责打造具备高情商、强逻辑、高可靠性的 Service Agent。我们不仅是在做小蜜智能对话机器人,更是通过大模型技术重塑数亿用户的智能服务办理流程,构建电商服务领域的“数字大脑” 1. Agent应用架构设计与落地:负责电商服务领域复杂服务场景(如小蜜、纠纷&赔付、服务风控),设计并搭建具备多步推理、工具调用能力的 Agent 架构,负责核心产品的workflow设计,解决智能服务长链路以及多链路协作难点; 2. 构建高可用智能服务系统:主导Agent算法工程的应用落地,涵盖向量库选型、多路召回策略实现、Context Engineering以及工具调用的精准控制。负责大模型推理加速、响应延迟及成本路由控制。提升复杂商业场景下的问题解决率及落地稳定性; 3. Agent系统效果评测与迭代:针对电商服务中的高置信度场景,构建 Service Agent 专属评估体系(Benchmark)及全链路自动化评测体系,通过数据工程手段优化Prompt工程与知识库质量,确保Agent 输出符合服务严谨性要求; 4. 前沿技术探索与转化:探索多智能体协作(Multi-Agent)、多模态融合和Self-Evolving等前沿方向,鼓励将学术界的最新成果快速转化为可落地的产品能力。

更新于 2026-03-26杭州