logo of transsion

传音算法架构师(语音与视觉方向)(J17888)

社招全职5年以上地点:上海 | 重庆 | 深圳状态:招聘

任职要求


(1) 计算机、电子信息、人工智能等相关专业硕士及以上学历,博士优先。
 (2) 5 年以上语音 / 视觉算法研发经验,精通至少两个核心领域(如语音增强 + ASR,或 CV+TTS)。
技术能力
 (1) 扎实的语音信号处理基础(如降噪、波束、回声消除)、ASR/TTS 技术栈(端到端模型、声学模型、transformer),或计算机视觉(检测、识别、分割、AIGC生图)。
 (2) 熟悉深度学习框架(Tenso…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


技术规划与方案设计
 (1) 负责语音信号增强、语音识别(ASR)、语音合成(TTS)、计算机视觉(CV)等算法领域的技术需求分析,制定中长期技术路线图,形成可落地的系统架构方案。
 (2) 将复杂算法需求拆解为模块化任务,协调算法团队、工程团队排期开发,确保技术方案高效实施与迭代。
跨团队技术整合
 (1) 跟踪前沿算法研究成果(如端侧轻量化、多模态融合),推动其落地应用。
 (2) 设计跨部门协作的技术接口与数据流程,确保算法能力与产品需求无缝衔接,形成差异化的解决方案。
技术决策与创新
 (1) 评估技术选型(如模型框架、部署方案),优化算法性能(精度、延迟、资源占用),解决关键技术瓶颈。
 (2) 主导预研项目,探索多技术融合创新(如多模态交互、主动感知),为公司战略方向提供技术储备。
包括英文材料
学历+
算法+
Transformer+
OpenCV+
深度学习+
还有更多 •••
相关职位

logo of transsion
社招8年以上

1.负责包括android智能终端的语音/图像/大模型等AI算法工程化与系统级服务的开发和落地 2.负责AI交互基础原子能力如识别、人脸、多模态等算法引擎集成和效果优化工作 3.负责面向多终端的端云交互SDK设计和开发 4.负责AI相关算法与服务全链路性能分析和问题定位工具开发 5.负责端侧大模型推理引擎及上层应用的架构设计,集成和性能优化工作 6.撰写和维护架构设计文档、技术文档,保证框架设计的合理性评估,提升团队跨部门沟通协作效率 7.制定、实施统一的代码规范和质量标准,推动团队提升代码质量 8.跟踪及洞察技术趋势,根据业务需要及时输出技术调研报告

更新于 2025-04-16重庆
logo of xiaohongshu
社招后端开发

【职位描述】 1、设计和实现机器学习平台业务系统, 包括工具链/组件等AI基础设施, 落地业务功能需求; 2、高效优化和部署 计算机视觉、语音识别、语音合成、自然语言处理 等业务模型; 3、与公司各算法部门深度合作, 分析业务性能瓶颈和系统架构特征, 软硬件结合优化, 实现极致性能。

北京|上海
logo of bytedance
社招A78654

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责字节跳动机器学习平台的开发,支撑公司相关业务的算法生产与高效迭代; 2、设计和实现机器学习相关的基础设施、框架、工具链等,并推动落地到业务中; 3、探索业界前沿的机器学习相关技术,持续提升平台能力、降低算法使用成本。

更新于 2024-10-23杭州
logo of tencent
社招TEG技术

1.多模态智能体研发:研发大数据领域多模态智能体,融合表格、文本、图像、视频、语音、结构化数据等多源信息,构建感知-推理-决策-交互一体化智能系统,并应用于智能决策,人机协作场景; 2.跨模态理解与生成:设计跨模态对齐与融合算法,提升智能体对复杂语义(如视觉问答、图文生成、视频摘要)的理解与生成能力,开发多模态检索增强技术。

更新于 2025-06-04深圳