logo of xiaohongshu

小红书【Ace顶尖实习生】端到端的全双工自然语音交互

实习兼职多媒体算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、精通TensorflowPytorch等工具,了解深度学习技术,具有模型优化经验;
3、熟悉Linux开发环境,熟练掌握C++pythonShell等编程语言,对数据结构算法有深刻理解者优先;
4、在相关国际会议或期刊(ICASSP、INTERSPEECH、ISMIR、 ASRU、 TASLP、 Speech Communication)发表过论文者优先;
5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。

工作职责


本课题围绕点点、搜索等依赖自然人机交互的业务场景,打造面向AI Agent的端到端全双工自然语音交互能力,预期构建具有小红书特色的最低延迟、最具人感、最懂用户的语音Agent。

重点攻克如何打造真实自然稳定的拟人感语音交互难题。其细分研究方向大模型语音内容理解【最懂用户】、可控对话式大模型语音合成【最具人感】、全双工speechLLM【最低延迟】等。
包括英文材料
TensorFlow+
PyTorch+
深度学习+
Linux+
C+++
Python+
Bash+
数据结构+
算法+
相关职位

logo of xiaohongshu
实习数据引擎

本课题研究的目标是建设面向数据开发、数据分析和数据科学等场景的智能体Agent,对标Google Colab DataScience Agent,能够根据实际业务场景中的看数、分析、预测等需求,实现端到端的多任务的构建和编排,从而完成目前数仓、DI等日常工作。例如,对于数据开发场景,DataEngineer Agent 可以实现需求理解-> 找表 -> 指标设计 -> 数据建模 -> 任务代码生成->任务编排 -> 数据测试 -> 任务发布的全流程,从而进一步释放数据开发工程师的人力需求,支撑我们在保持精简的组织架构下,继续支撑业务的高速增长,实现卓越型组织架构。

logo of xiaohongshu
实习大模型

多智能体已成为AI应用领域的关键技术,如何通过多智能体协作解决复杂任务是AI应用领域的研究热点。 本课题拟聚焦于端到端强化微调技术,通过事务级的规划和行动,结合代码生成、界面交互等能力对全场景工具进行调用,显著提升AI系统端到端解决复杂任务的能力。该研究将支持旅行攻略生成、运动健康规划等应用场景,重新定义AI垂类应用的能力边界和业务价值。

更新于 2025-07-03
logo of xiaohongshu
实习内容理解

本课题希望探索有效的统一大模型基座方案及提升多场景联合预训练的效果。目前公司内部不同业务场景下存在多套Embedding&标签大模型,部署成本较高,且应用在下游端到端建模任务如序列推荐时也多有不便,希望在多场景下对多套不同的Embedding&标签做整合,共用一套统一的基座模型,降低部署成本。同时通过融合的方式,对多场景数据进行综合建模,提升多场景的Embedding&标签效果。 统一基座模型需要解决的核心技术难点包括: 1、基座统一但仍可支持业务的定制微调,且训练成本和推理成本较低; 2、多体裁内容(如笔记、直播、商品、Query等)的理解可以融合在一个统一模型,且效果比独立训练更好。 研究方向会针对要解决的问题设立,包括:基于多Head或MoE的轻量化微调及融合推理、多体裁内容形式的统一建模。

logo of xiaohongshu
实习客户端开发

深入研究和应用AI大模型技术,对工程架构做全面设计,推动架构智能化升级,确保系统具备高扩展性、高稳定性和高性能,以适应不断变化的业务需求和数据量的增长。