传音资深音频、视频、Display(J11282)
任职要求
1、 本科及以上学历,计算机、通信、电子、自动控制及相关专业, 英语4级以上; 2、 熟练掌握Linux 驱动开发; 3、 8年及以上Android开发经验,有Audio,Video,Display任意某个方向的相关经验; 其他具体要求,可咨询HR: catherine2549
工作职责
音频专家 : 1、负责Android Audio FrameWork框架客制化设计和优化(Frameworks, HAL ,Driver); 2、负责Audio定制功能开发(语音识别算法集成、音效集成和开发、立体声、降噪技术、声音合成及编解码算法等); 3、负责Audio 领域新项目的落地,包括行业趋势分析及算法的评估、引入及落地项目; 音视频流媒体专家 : 1、负责Android Video 框架及系统流程优化及开发; 2、负责Android OMX、Codec2.0 的定制开发和优化及新编解码器的集成; 3、负责H264、H265 的编解码算法优化及码率优化; 4、负责FFMPEG(gstream)、WebRTC等视频框架的平台开发和性能优化; 5、负责Video 领域行业趋势分析及新算法的评估、引入及落地项目; Display专家: 1、负责显示相关功能(卷轴、折叠、高帧率、超高分辨率、色彩调节优化、显示加速及同步等多项或者一项)的框架设计、功能开发; 2、负责显示稳定性的问题解决和维护,如产线压力/市场投诉; 3、负责显示行业趋势跟进及新器件、算法、导入落地项目; 4、定期输出相应负责模块的开发文档(SurfaceFlinger, HWC,Kernel); 5、定期输出相应负责模块的相关新技术文档、行业趋势解读 6、定期输出问题分析与总结分享文档,
1.负责项目本地化视频的多语言版本主导从概念设计到最终落地的全流程实施; 2.协同导演团队完成音画对齐,制定可执行的声音艺术方向标准并管理质量预期; 3.负责本地化的多媒体模块的全流程工作,并对结果负责。
负责统筹建设和保障服务于网易集团内部客户的低延迟实时音视频通讯系统,系统范围包括: 1、基于Polycom原厂设备(视频:G500、550、XStudio系列)、(音频:331、5000、6000、8800等)的服务器部署和运维工作; 2、基于Zoom SDK的私有化对接,优化视频服务的稳定性、可靠性,具备整套私有化方案架构的设计、开发对接、部署能力; 3、负责运维国内IP-PBX网络电话系统,包括日常版本升级、号段池维护、黑名单治理、话务分析与稳定性保障; 4、负责跨部门合作,基于会议场景,提供更加灵活、便捷、稳定、安全的视频接入服务。

1、视频理解算法研发与多模态分析:1)主导视频内容理解算法的端到端研发,覆盖动作识别、事件检测、微表情及情感语义分析,构建从数据预处理到模型部署的全流程方案。2)设计例如基于Video Swin Transformer、3D CNN及CLIP等的多模态分析框架,实现“视觉-音频-文本”多维度内容解析。3)探索前沿技术如可控视频理解、物理引擎整合,提升复杂场景下的语义解析精度。 2、智能剪辑系统设计与自动化流程:1)开发基于多模态的智能剪辑框架,实现镜头分割、关键帧提取及内容摘要的自动化处理。2)设计自然语言交互式剪辑工具,支持用户通过文本指令或语音交互完成视频编辑,提升创作效率。 3、多模态交互与场景落地:涉及自然语言交互式编辑工具,支持用户通过对话逐步细化生成内容,提升创作自由度。 4、技术落地与产品化:1)与工程团队协作,将算法集成至业务系统,解决实际场景中的挑战。2) 设计标准化工具链,支持用户通过简单接口调用生成能力。 5、可独立进行跨部门技术方案评审,协调各方需求确保项目按时交付。跟踪国际顶会最新前沿技术成果,定期组织技术分享。指导初级工程师,建立算法知识库和代码库。
1. 负责多模态大模型(涵盖图像、视频、音频、文本等模态)在内容安全、活体检测、人脸识别、内容理解等场景的算法研发与性能优化; 2. 探索和实现图像、视频、文本等多模态数据的统一建模与高效表征学习,提升模型在内容审核、短视频内容理解等任务中的泛化性和鲁棒性; 3. 紧密跟进与研究业界领先的大模型技术,如InternVL3、Qwen2.5-VL等,探索并落地其在图文审核、视频内容审核、身份核验等业务场景中的应用策略及精调方法; 4. 负责构建并持续优化模型训练及推理系统,显著提升多模态模型在安全审核领域的准确率、召回率与实时响应性能; 5. 探索并实现文本生成图像技术在内容生成与审核中的应用,提升系统的生成与理解能力; 6. 与产品、工程等相关团队密切合作,推动多模态审核、识别系统的业务落地,实现业务场景的闭环验证与持续迭代优化。