logo of meituan

美团【北斗】基座大模型算法研究员(通用 Agent/搜索Agent/安全方向)

校招全职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1.计算机、人工智能、自动化、数学、物理等相关专业;
2.在强化学习、语言模型、机器学习等一个或多个领域有较深入的研究者;
3.好奇心驱动,具有出色的分析、解决问题的能力,有自主探索解决方案的能力者;
4.具有良好的沟通协作能力,对追求纯粹的技术有强烈热情,工作积极主动,能够与团队融洽合作,一起探索新技术并快速试验想法,推进技术进步。
加分项:
1.具有优秀的基础算法、扎实的机器学习基础,熟悉 NLP、RL、ML 等领域的技术,在 NeurIPSICLR、ICML 等顶级会议/期刊上发表论文者优先;
2.具有优秀的代码能力,熟练掌握 C/C++ 或 Python 编程语…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


通用Agent方向:
1.探索模型通过 RL Scaling 等方式使用成套工具解决复杂问题的行动和规划能力,包括 Human in the Loop 多轮交互下 Agent 基础建模的新方案、以及与复杂环境的交互学习能力;
2.探索模型在 Non-Rule Based Outcome 场景下利用复杂信息进行有效推理的范式,包括 Proactive Agent 的建模方案;
3.探索研究更多内在奖励的机制,从而激发模型主动学习和自我更新的能力;
4.探索构建长期记忆机制,为下一代高效的推理模型、长序列推理及建模提供基础。

搜索Agent方向:
1.参与通用AI搜索中Agent的框架建设和算法优化,并能在实际业务场景进行落地;
2.探索指令微调、偏好对齐(RLHF/DPO)和LLM Reasoning(如思维链、多步推理)在AI搜索场景的应用,特别是提升复杂搜索能力(如Deep Research);
3.构建端到端Agent优化系统,将意图识别、推理规划、工具调用、信息检索和结果生成等步骤联合优化,探索大模型AI搜索Agent的智能上限;
4.研究AI搜索Agent的自动评测标准和方法,构建公平、合理并且全面的评测系统加速Agent迭代;
5.跟踪大模型和搜索最前沿的技术,包括但不限于多模态、Scaling Law、训练范式探索、长文本优化、高效训推框架探索。

安全方向:
1.负责LLM、VLM通用大模型与垂类大模型的内容安全研发,提升模型识别风险、规避风险、处置风险的能力。
2.负责通过定性、定量方法评估策略表现,进行策略迭代更新,不断提升内容安全效果。
3.深度参与大模型、安全、算法等领域的调研,结合通用模型的新技术、新场景,如LongCoT、Agent、GUI,积极探索相应新技术、新场景上,安全方案的创新和落地。
包括英文材料
强化学习+
机器学习+
算法+
NLP+
NeurIPS+
还有更多 •••
相关职位

logo of meituan
社招5年以上软硬件服务-骑行

1、负责共享两轮车电气件的硬件开发。 2、根据产品需求完成电气系统设计、硬件方案设计,编写设计文档。 3、负责关键电子元器件物料选型、原理图绘制和电路板布局布线,BOM确认,进行样板焊接和调试。 4、配合软件、结构、测试等部门完成产品开发和产品验证,跟进并解决生产问题。 5、跟踪存量产品的市场问题,制定并落地解决方案。 6、跟踪行业新标准和技术动态,参与新技术预研和应用。

更新于 2025-04-01深圳|北京
logo of amap
社招6年以上技术类-开发

信息工程介绍:构建空间智能商业引擎,支撑高德日均调用北斗定位4800亿次,我们在商业服务领域面临多重极端技术挑战;节假日搜索系统需承载超百万QPS峰值请求,同时保障更新99.999% SLA;实时管理海量动态服务节点(从充电桩状态到酒店房态),时空数据更新毫秒级延迟。 1、提升交易稳定性、数据一致性、缩短RT等; 2、业务层面打造交易平台,支持业务快速试错、迭代,提升产研效率,快速助力业务KPI的达成。 3、负责高德基于LBS本地生活类业务(例如:酒店、门票、加油充电、美食生服)的营销运营体系建设,营销引擎、增长相关系统研发和迭代。 4、参与系统稳定性保障体系的建设,包括系统风险识别与优化、稳定性工具沉淀,保障大促及平时业务系统稳定、高效运转 5、负责协调上下游团队,推动项目高效、有序落地。

更新于 2025-06-27北京
logo of jd
校招多模态大模型与应

1、研究大模型(如 GPT、BERT 等)在定位多径和多模态定位中的应用可能性。探索如何利用大模型强大的学习能力和泛化能力,对复杂的定位数据进行特征提取、模式识别和预测分析 2、深入研究定位多径问题,包括但不限于卫星定位(如 GPS、北斗)、无线定位(如 Wi-Fi、蓝牙)等场景下的多径传播机制,提升定位精度到米级别 3、深入钻研 RTK(实时动态)载波相位差分技术,对其核心算法进行优化与创新。研究多系统(如 GPS、北斗、GLONASS 等)融合下的 RTK 定位算法,通过改进算法提高定位的精度、可靠性和稳定性,复杂场景定位精度到1米

更新于 2025-06-10北京
logo of meituan
实习核心本地商业-业

【课题说明】 通用模型往往难以兼顾多样化的场景需求,容易出现泛化能力强但针对性不足的问题。针对这一挑战,本课题聚焦于研究面向具体业务或应用场景的强化学习训练优化策略,通过引入场景特定的奖励函数、环境建模和数据采样机制,提升模型在特定任务下的表现能力与适应性。课题重点突破模型在细粒度场景下的泛化能力不足、奖励稀疏、训练效率低等问题,为大模型的行业落地提供有力支撑。 【建议研究方向】 1.场景特定奖励设计:针对不同业务场景,定制化设计奖励函数,提升模型在目标任务中的表现能力。 2.环境模拟与数据生成:构建高保真场景模拟环境,开发高效的数据采样与生成机制,提升强化学习训练效率。 3.迁移与泛化能力增强:研究多场景迁移学习与元强化学习方法,提升模型从通用能力到场景定制能力的转化效率。 4.推理增强型RAG系统:基于图结构的知识融合、混合模型的协同推理架构和强化学习驱动的优化方法,进一步提升RAG系统能力。 5.基于价值观约束的大模型风险控制与安全防护。

更新于 2025-05-27北京