logo of xiaohongshu

小红书【Ace顶尖实习生】DataEngineer Agent 研发和规模化落地

实习兼职数据引擎地点:杭州 | 上海 | 北京状态:招聘

任职要求


1、不限年级,本科及以上在读,人工智能/计算机/软件工程等相关专业优先;
2、优秀的代码能力,熟练掌握至少一门编程语言,包括但不限于Python/C/C++/Java/Go等其中一门开发语言;
3、有分布式系统/数据库系统/云原生等相关技术的研究和开发经验优先;
4、在顶级学术会议或期刊发表论文或有深入研究经历者优先;
5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。

工作职责


本课题研究的目标是建设面向数据开发、数据分析和数据科学等场景的智能体Agent,对标Google Colab DataScience Agent,能够根据实际业务场景中的看数、分析、预测等需求,实现端到端的多任务的构建和编排,从而完成目前数仓、DI等日常工作。例如,对于数据开发场景,DataEngineer Agent 可以实现需求理解-> 找表 -> 指标设计 -> 数据建模 -> 任务代码生成->任务编排 -> 数据测试 ->  任务发布的全流程,从而进一步释放数据开发工程师的人力需求,支撑我们在保持精简的组织架构下,继续支撑业务的高速增长,实现卓越型组织架构。
包括英文材料
Python+
C+
C+++
Java+
Go+
分布式系统+
相关职位

logo of xiaohongshu
实习策略算法

传统的AI搜索依然基于RAG框架,少有的几个Agent框架也只涉及QueryPlanning,距离真实解决搜索中的实际问题还相距很远,例如做旅游攻略、做行业研究报告等等。我们判断,虽然当下LLM已经大范围的用于搜索领域,但是下一代的搜索技术变革一定是基于Agent的。本课题旨在研究基于Agent框架的基座模型。

logo of xiaohongshu
实习策略算法

本课题的研究目标是打造行业领先的多语言能力强化的大语言模型,结合业务海量的多语言互译语料,以及平台生活化特色的笔记评论数据,利用数据合成、RL冷启训练、SFT和RLHF等技术,实现: 1、在小红书多语言大模型翻译场景取得领先效果; 2、多语言场景下,AI搜索的检索和生成技术。

更新于 2025-07-20
logo of xiaohongshu
实习多媒体算法

本课题围绕点点、搜索等依赖自然人机交互的业务场景,打造面向AI Agent的端到端全双工自然语音交互能力,预期构建具有小红书特色的最低延迟、最具人感、最懂用户的语音Agent。 重点攻克如何打造真实自然稳定的拟人感语音交互难题。其细分研究方向大模型语音内容理解【最懂用户】、可控对话式大模型语音合成【最具人感】、全双工speechLLM【最低延迟】等。

更新于 2025-07-20
logo of xiaohongshu
实习内容理解

本课题希望探索有效的统一大模型基座方案及提升多场景联合预训练的效果。目前公司内部不同业务场景下存在多套Embedding&标签大模型,部署成本较高,且应用在下游端到端建模任务如序列推荐时也多有不便,希望在多场景下对多套不同的Embedding&标签做整合,共用一套统一的基座模型,降低部署成本。同时通过融合的方式,对多场景数据进行综合建模,提升多场景的Embedding&标签效果。 统一基座模型需要解决的核心技术难点包括: 1、基座统一但仍可支持业务的定制微调,且训练成本和推理成本较低; 2、多体裁内容(如笔记、直播、商品、Query等)的理解可以融合在一个统一模型,且效果比独立训练更好。 研究方向会针对要解决的问题设立,包括:基于多Head或MoE的轻量化微调及融合推理、多体裁内容形式的统一建模。