小红书端侧音频工程师-语音采集 / 前处理 / 流式传输
任职要求
任职资格 4. 本科及以上学历,计算机、软件工程、电子工程、信号处理等相关专业 5. 熟练使用 C++,具备扎实的工程能力和良好的代码质量意识,熟悉音频基础概念与处理流程 6. 熟悉端侧 Native SDK 开发,深入理解 Android / iOS 音频采集机制,包括但不限于: - Android:AudioRecord / AAudio / OpenSL ES / Audio Focus - iOS:AV…
工作职责
工作职责 1. 负责小红书端侧音频采集与前处理模块的设计与开发,解决启动耗时、首包延迟、音质一致性等问题 2. 负责端侧音频数据的实时/准实时流式传输方案设计,与后端、算法团队协作完成低延迟语音输入链路 3. 定位并解决复杂场景下的音频问题,如多 App 竞争音频焦点、系统限制、机型差异、异常场景恢复等

工作职责: 1.负责 端侧语音交互系统开发,包括语音唤醒、语音识别、语音合成及对话管理模块。 2-参与 座舱系统、小型机器人、IoT 交互设备 的语音服务及场景化交互方案研发。 3-设计并实现 语音服务框架,支持多场景、多模态的交互能力。 4-设计 对话管理引擎(Dialog Manager) 或 多轮对话。 5-与产品、算法、UI/UX 团队紧密协作,实现高效、自然的人机语音交互体验。 6-跟踪行业发展,探索 端云协同语音架构 及 轻量化语音模型 在不同硬件平台的落地应用。 团队沟通能力,能够推动语音交互功能从方案到产品落地。
技术领导与架构: 负责翻译/同传类App的整体技术架构设计、技术选型与攻坚,确保应用的高性能、高可靠性与可扩展性。 核心功能开发: 主导实现实时音频流处理功能,包括低延迟采集、降噪、回声消除(AEC)、语音活动检测(VAD)。 主导实现音视频同步录制、播放与实时处理逻辑。 深度集成并优化云端或端侧AI语音识别(ASR)、机器翻译(MT)、语音合成(TTS) 引擎的SDK。 实现复杂的多语言UI与交互逻辑,如对话模式、字幕实时渲染、会议记录等。 性能优化: 持续优化应用的性能、内存占用和功耗,特别是在后台长时间运行及处理高强度音频任务时的稳定性。 代码与质量: 编写高质量、模块化、可维护的代码;建立并推行代码规范;主导Code Review,提升团队整体技术水平。 协作与沟通: 与产品经理、设计师、后端工程师及AI算法工程师紧密协作,共同定义API接口,推动产品迭代。
团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、支持语音交互技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,聚焦智能硬件AI交互中的的音频理解处理技术方案的迭代与创新,专注端侧智能交互的前沿技术和算法效果; 2、追求和探索业界最前沿算法,结合LLM与音频处理,实现音频内容创作和消费业务场景的智能音频理解和处理算法研发和业务支持; 3、跟踪智能音频领域的最新技术进展并升级团队自研的各算法系统,包括回声消除、AI降噪、多通道音频理解及处理; 4、跟踪研发业界先进的音频进展,统计模型/机器学习/深度学习技术在语音/音频领域研发并落地产品。