logo of antgroup

蚂蚁金服蚂蚁集团-AI基建工程师(引擎方向)-北京/杭州

社招全职2年以上技术类-开发地点:北京 | 杭州状态:招聘

任职要求


1. 具备分布式系统设计与实现经验,熟悉Ray分布式框架,熟悉SPMD编程模型和集合通信原理,具备通信优化(NCCL/RDMA)和并行策略(DP/TP/PP/EP等)实现与调优能力;
2. 精通PyTorch框架,熟悉transformer网络结构和原理,掌握Transformers、flash-attention等主流库的使用和实现细节;
3. 熟悉计算图构建、算子融合、显存布局优化、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 面向安全领域对抗式、判别式等特色智能化场景,设计和研发分布式训练和推理引擎基础设施,支持超长上下文等安全业务特色需求;
2. 针对Agentic RL等大模型研发范式,诊断并优化算力和显存消耗,提升训练推理规模和性能,提供支持故障恢复的高可用引擎系统;
3. 对推理服务引擎、系统和链路进行全面优化,降低大模型服务成本,提升推理效率,增强服务稳定性;
4. 对安全场景的大模型研发重点难点问题攻坚克难,进行技术创新突破,跟进和超越业界SOTA;
包括英文材料
分布式系统+
Ray+
NCCL+
PyTorch+
Transformer+
CUDA+
Megatron+
还有更多 •••
相关职位

logo of antgroup
校招蚂蚁星计划 -

作为蚂蚁集团核心风控技术部门,我们专注于解决业务风险相关的技术挑战与系统建设,覆盖资金安全、数据安全、大模型安全、反洗钱及数字化业务风控等领域。这些业务场景因强对抗性、风险形态多样化、高时效性要求等特性,对技术规模性、系统复杂度、性能极限、智能化水平及可扩展能力提出跨维度挑战。 技术沉淀与突破: 过去数十年,团队基于特征工程、策略体系、模型算法及数据驱动框架,构建了具备行业领先水平的智能风控基础设施,持续守护超大规模业务的安全运行。 未来方向与目标,在大模型技术驱动的新阶段,我们计划联合顶尖人才突破以下核心方向: 大模型驱动的风控基建:研发生成式AI为核心的智能引擎,提升风险识别与对抗能力; 自主进化的防御体系:深度结合业务理解与模型技术,构建风险防护、用户行为分析、产品风险识别的核心能力; 技术前沿探索:攻坚大模型在风控场景中的安全应用、动态对抗机制及可扩展性难题; 我们期待与具备顶尖技术视野与工程能力的候选人合作,共同定义下一代智能风控的技术标准。 结合安全各种风险场景,如黑产攻击,风险防控,权限管理,多模态内容理解,进行大模型算法/工程/应用的全栈/全流程建模,选型,设计,研发,和优化,并在基础设施或者应用有所创新和突破(如Prompt自动优化,SFT自适应,分布式训练编译调度,黑产对抗的强化学习,防控特征/策略的生成,面向对抗的多模态算法/系统设计和优化等)。

北京|上海|杭州
logo of bytedance
社招96SP

1、负责售卖方向业务建设,关注业务支撑架构合理性、支撑效率以及稳定性; 2、负责组内通用基建相关建设,主要关注组内研发效率,推进组件化、低代码、工程化建设; 3、关注AI技术在组内的建设和落地,结合MCP架构建设,赋能相关研发场景; 4、负责团队的管理和运营,关注成员成长及规划,保障团队稳定性。

更新于 2021-01-24北京
logo of xiaohongshu
社招引擎

岗位职责 1. 全链路AI基建开发 * 构建在线模型编排(Model Orchestration)能力,优化百万核级规模模型的资源调度、稳定性治理及跨系统复用。 * 主导特征工程平台(RedFeatureStore)建设,打通离线/在线数据一致性,支持超长序列建模、高商业价值特征探索等场景。 * 设计高性能推理引擎(RankML/RetrievalML),覆盖广告粗排、精排、创意优选等核心链路,实现算力与延迟的极致优化。 2. 下一代AI技术落地 * 推动GPU推理、AI编译器优化(算子融合/自动调优)、边缘存储等技术的深度应用,提升服务性能。 * 探索LLM、RAG、Agent技术在广告场景的应用,重构创意生成、相关性建模等业务的工作流。 3. 工程效能与稳定性 * 主导C++服务框架、容器化、混部资源优化,解决高并发场景下的长尾延迟、CPU利用率等核心问题。 * 构建自动化诊断工具链,提升复杂系统的可观测性与故障恢复效率。

北京|上海
logo of bytedance
社招JYHSP

1、参与前端技术基建,包括前端工程化、组件化、Serverless 托管服务、低代码搭建能力、开发者工具等; 2、建设稳定可靠、安全易用的云平台前端架构和应用,保障客户访问和使用火山引擎的前端稳定性和客户体验,建设云计算行业客户体验标杆; 3、建设火山引擎业务中台能力,包括云账号/身份/权限/资源管理系统、云产品商业化系统、云产品官网/控制台建站服务、云计算 Open API 管理平台、云计算客服/AI能力等; 4、建设火山引擎国内外官网门户、开发者社区、生态系统,提供流量、开发者运营能力,提升火山引擎从线索获取到客户转化的整体效率。

更新于 2021-01-22上海