安克创新音频强化学习实习生招聘
校招全职地点:北京状态:招聘
任职要求
必须项 1. 在读硕士/博士,音频、信号处理、计算机科学、自动化、电子信息等相关专业 2. 熟悉 PyTorch 框架,有完整的深度学习项目经验;了解 CNN/RNN/Transformer/Conformer 等主流网络架构 3. 了解音频信号处理基础(STFT、滤波器、声学特征等) 4. 掌握 RL 基本概念(MDP、策略梯度、Actor-Critic、PPO/SAC/DDPG 等),有至少一个 RL…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
安克实习生项目是面向正式校招岗位的人才培养与选拔通道。实习期间将按照校招标准进行系统的培养与综合评估,表现优秀者可直接获得校招转正机会,提前锁定正式校招席位。我们以严肃、长期的视角对待每一位实习生,也期待与你共同成长。 【你将参与】 1. 探索强化学习在 ANC、通话降噪、音效、语音识别等音频领域的应用 2. 设计与优化奖励函数、策略网络结构,提升音频处理效果与主观听感 3. 搭建和维护音频 RL 训练与评估流水线,包括仿真环境构建、数据采集、模型训练与性能评测 4. 参与端侧部署相关工作,包括模型量化、算力优化、实时性验证
包括英文材料
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
CNN+
https://learnopencv.com/understanding-convolutional-neural-networks-cnn/
Convolutional Neural Network (CNN) forms the basis of computer vision and image processing.
[英文] CNN Explainer
https://poloclub.github.io/cnn-explainer/
Learn Convolutional Neural Network (CNN) in your browser!
https://www.deeplearningbook.org/contents/convnets.html
Convolutional networks(LeCun, 1989), also known as convolutional neuralnetworks, or CNNs, are a specialized kind of neural network for processing data.
https://www.youtube.com/watch?v=2xqkSUhmmXU
MIT Introduction to Deep Learning 6.S191: Lecture 3 Convolutional Neural Networks for Computer Vision
RNN+
https://d2l.ai/chapter_recurrent-neural-networks/rnn.html
A neural network that uses recurrent computation for hidden states is called a recurrent neural network (RNN).
https://www.deeplearningbook.org/contents/rnn.html
Recurrent neural networks, or RNNs (Rumelhart et al., 1986a), are a family of neural networks for processing sequential data.
https://www.ibm.com/think/topics/recurrent-neural-networks
A recurrent neural network or RNN is a deep neural network trained on sequential or time series data to create a machine learning (ML) model that can make sequential predictions or conclusions based on sequential inputs.
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
还有更多 •••
相关职位
实习淘天集团2026
参与构建新一代电商语音认知引擎,通过大模型技术实现语音交互与商品理解的双向增强,打造全球领先的电商领域语音智能中枢,支撑淘宝亿级DAU场景的语音搜索、智能导购等核心业务。 1. 负责大模型语音模态的设计、开发和优化,包括但不限于语音音频数据清洗、模型设计、训练策略等方面的研究与应用。 2. 参与语音识别、语音合成、语音理解等相关大模型语音模态能力的建设,提升跨模态整体效果。 3. 跟踪、探索大模型方向,将各模态的SOTA能力集成到模型底座上,提升识别以及搜索能力,提升团队技术先进性。
更新于 2025-05-08北京|杭州
实习
1.参与多模态音频生成大模型算法研发工作; 2.跟进特定领域的前沿进展,对算法进行优化,使算法效果达到业界领先水平; 3.参与学术研究,产出具备行业影响力的科研成果,产出顶会论文及专利。
更新于 2025-09-26武汉
实习
1.参与多模态音频生成大模型算法研发工作; 2.跟进特定领域的前沿进展,对算法进行优化,使算法效果达到业界领先水平; 3.参与学术研究,产出具备行业影响力的科研成果,产出顶会论文及专利。
更新于 2025-09-26北京
实习通义研究型实习生
专注于音频生成大模型的研究、探索和开发,具体职责包括: 1、研发更加通用、适用于多种音频信号生成的 Audio Tokenizer,包括但不限于声学事件、音效、背景音乐、歌唱等。 2、探索更加高效的自回归音频生成技术,从根本上解决现有自回归模型的效率问题。 3、探索基于连续声学特征的音频生成大模型,生成能力从语音扩展到包括音乐、声学事件、音效等更广泛的音频信号。 4、探索在音频生成时对 Life-term 上下文有效的建模方式,提高训练、推理效率以及合成音频的表现力。 5、研究适用于音频生成模型的 post-training 策略,例如强化学习、多任务微调等。
更新于 2025-04-17北京|杭州