小鹏汽车【26届校招】大数据开发工程师
任职要求
1、26届应届生,本科及以上学历,数据科学相关专业优先; 2、熟悉SQL语言,有使用常见数据库(Mysql)经验; 3、熟悉Python,能完成简单数据接口拉取任务; 4、具备良好的沟通表达能力和问题解决能力; 5、具备优秀的学习能力和团队合作能力,积极主动,勇于承担。 加分项: 1、熟悉数据仓库主流技术栈,包括Hadoop, Hive, HBase, Flink, Kafka(任何一项); 2、使用过阿里云Maxcompute, Dataworks产品; 3、有数仓开发/建模实战项目经验。"
工作职责
1、参与数据需求的分析,开发及交付工作,协助客户优化业务,提升效率,驱动增长; 2、参与公司统一数仓平台的模型设计, 研发及优化工作,助力企业数据价值挖掘与数据资产变现; 3、落实公司数据治理的相关流程与规范要求,为平台数据产出及时性、准确性、一致性提供支持与保障。
1. 负责自动驾驶多模态数据的合成技术研发与工程实现,构建高质量、多样化的仿真与合成数据,提升训练数据的覆盖场景丰富度与边界案例覆盖率,满足端到端自动驾驶模型的训练需求; 2. 深入分析自动驾驶训练数据的特征与分布规律,运用统计建模、机器学习与因果推理方法挖掘数据中的潜在问题(如样本偏差、长尾分布、标签错误、对抗样本等); 3. 研究并开发面向自动驾驶场景的高效自动标签算法,基于规则算法和大模型数据挖掘方法,提升为大模型pretrain,sft,RL阶段提供高质量数据; 4. 构建端到端的数据质量评估与过滤体系,设计适用于自动驾驶任务的数据质量指标(如场景完整性、数据分布合理性、时序一致性、合规性等),开发自动化检测工具链,对标签数据、合成数据开展模型训练,提升模型在安全性,效率,合规,安心感等方面的表现; 5. 持续跟踪自动驾驶与大模型的前沿数据技术,推动数据合成、自动标注、质量评估等核心算法在实际工程系统中的部署与落地。

1. 基于业务场景设计数据分析模型(如用户画像、运营分析、风险预警),输出数据洞察报告。 2.开发数据挖掘与机器学习算法(如分类、聚类、预测模型),支持业务智能化决策。 3. 参与数据清洗、特征工程、模型训练与调优,推动算法落地到生产环境。 4.探索前沿技术(如AIGC、图计算)在业务场景中的应用可能性。

1.大模型微调与优化 基于业务场景需求,主导7B/14B等参数量级大模型的微调全流程,涵盖数据清洗、算法选择(如LoRA/QLoRA)、量化压缩(INT4/INT8)及部署优化; 设计参数高效微调方案,优化模型推理效率与成本,推动RAG技术栈(向量数据库/检索增强)在业务中的落地; 跟踪前沿技术(如Diffusion模型、多模态微调),探索模型轻量化与领域适配的创新方案。 2.AI Agent开发与系统集成 构建基于LLM的智能体架构,实现任务规划、记忆管理、工具调用等核心功能,开发符合业务逻辑的Agent交互系统; 集成LangChain、LlamaIndex等开发框架,实现AutoGPT式自主决策能力,优化Agent在复杂场景下的鲁棒性; 推动Agent与数字孪生、数字员工等技术的融合,提升工业检测、智能客服等场景的自动化水平。 3.客户需求转化与方案落地 深度参与客户需求分析,将业务场景(如制造、金融、医疗)转化为可执行的AI技术方案,提供端到端咨询服务; 输出技术文档与API接口,支持跨部门协作与客户侧的技术培训; 监控模型生产环境表现,针对客户反馈持续迭代优化,确保SLA达成与成本可控。
1. 算法开发与优化: 负责自动驾驶模型算法的研发设计,包括但不限于行为决策、轨迹生成、运动规划等模块的深度学习/强化学习模型设计 探索基于Transformer、模仿学习(Imitation Learning)、强化学习(RL)等前沿技术的模型算法设计、应用方案 优化自动驾驶算法的实时性、安全性和舒适性,解决复杂场景(如拥堵、交互博弈、长尾问题)下的规划挑战 2.数据驱动迭代: 构建和利用大规模驾驶数据集(仿真+真实数据),设计数据闭环 pipeline 提升规划性能 参与数据标注、场景挖掘、仿真测试等环节,推动算法迭代 3.系统集成与部署: 与感知、控制等模块团队协作,实现模型算法在车载计算平台的部署 支持实车测试,分析问题并提出改进方案 4.前沿技术跟踪: 跟进学术界(如CVPR、ICRA、CoRL、IROS等)和工业界最新进展,将创新技术落地到量产或研发项目中