通义LLM-自然语言处理算法工程师
校招全职通义2026届秋季校园招聘地点:北京 | 杭州状态:招聘
任职要求
1. 来自一流高校的计算机科学、自然语言处理,人工智能、机器学习,模式识别或相关领域应届博士/硕士毕业生。 2. 深入掌握深度学习、强化学习、表示学习等建模方法;在多模态建模和跨模态对齐等方面有深入研究。 3. 在国际顶级计算机会议/期刊(如NeurIPS、ICLR、ICML, TPAMI、CVPR、InterSpeech、ACL, EMNLP等)以一作身份发表过论文,或在开源社区、竞赛中展示出引领性的研究成果。 4. 良好的工程与实验思维:熟悉PyTorch/TensorFlow等主流框架,具备大规模语言/语音/视觉模型调优经验,能高效实现定制化训练流程;重视代码质量与实验结果,追求“不仅work,而且高效优雅”。 5. 技术热情与好奇心:有志于将AI从实验室推向真实业务场景,构建“可解释、可控制、可落地”的行业智能系统,善于从复杂的行业需求中提炼出核心AI建模问题,并设计创新性的解决方案。 6. 善于跨团队协作:能与产品、工程,基础研究团队高效沟通,平衡技术理想与落地实现。
工作职责
近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。 我们致力于面向通用人工智能(AGI)的前沿探索与产业落地创新。一方面,在迈向AGI的长期路径中,随着大语言模型能力的持续进化,多模态感知、融合与推理等关键问题日益凸显,成为构建通用智能系统的核心挑战;另一方面,围绕典型行业场景如何将现有大模型能力有效转化为可落地、可扩展、可持续的解决方案,也成为当前研究与工程实践的重点方向。 如果你对生成式AI、智能交互、智能软件工程,智能文档处理,数据挖掘,多语言内容的理解和生成,跨模态检索与理解,多模态智能体GUI Agent以及法律金融等方向的AI应用算法研发有浓厚兴趣,或者对于大模型应用落地有浓厚兴趣,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。 1. 大语言模型算法创新:定义下一代大语言模型技术范式,实现文本、代码,语音、视觉等多模态信息的联合建模,探寻和解决对齐、推理、Agentic等方面的核心挑战,不断追寻通用大模型的效果上限。 2. 场景驱动的算法创新:结合上述业务场景,设计并优化大模型架构,研发低成本高效应用算法,提升效果、效率与鲁棒性。 3. 端到端技术闭环:从数据构建、模型训练、评测到部署,主导技术方案落地,通过AB实验、调用量、用户反馈验证价值。 4. 前沿应用技术探索:紧跟并能驱动LLM、Diffusion Models、强化学习等技术相关进展,定义技术新范式,快速实验并迭代创新方案,拉升相关模型在学术领域和应用场景的SOTA。
包括英文材料
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
模式识别+
https://www.mathworks.com/discovery/pattern-recognition.html
Pattern recognition is the process of classifying input data into objects, classes, or categories using computer algorithms based on key features or regularities.
https://www.microsoft.com/en-us/research/wp-content/uploads/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf
Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
NeurIPS+
https://neurips.cc/
ICLR+
https://iclr.cc/
ICML+
https://icml.cc/
CVPR+
https://cvpr.thecvf.com/
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
相关职位
社招2年以上旅游业务AI &
为搜索、内容生成、内容挖掘等功能设计和实现自然语言处理算法对业务的反馈进行建模,快速定位问题与收集数据,设计和实现解决方案,并评估效果的好坏结合数据和业务目标进行分析、总结,为业务的推进提供数据或技术支撑部分自然语言处理算法的预研工作
更新于 2025-05-08
社招内容理解
网页解析与结构化抽取:基于千亿级网页数据,研发通用网页解析算法,实现HTML 结构理解、正文提取、广告识别、页面去重等功能,提升大规模网页解析能力。 URL 归一化:优化 URL 解析与去重策略,提升爬虫抓取效率、内容聚合能力,构建高质量索引库。 页面质量评估:基于机器学习(ML)+ 自然语言处理(NLP)+ 规则工程,构建高质量内容筛选算法,识别低质量/垃圾/重复页面,提高训练数据质量。 知识抽取与语义理解:基于BERT/GPT/LLM 等技术,解析网页、文档、视频等多模态内容,构建网页内容理解、网页分类、实体识别等模型,助力大模型训练数据优化。 搜索数据优化:结合大模型能力+外部索引库,优化爬虫抓取策略,提升数据覆盖率、时效性,服务于搜索与问答产品。 爬虫数据分析与反爬对抗:基于数据挖掘分析网页特征,优化反爬检测、爬虫模拟行为、动态渲染等策略,提高数据采集成功率。 网页知识图谱构建:结合NLP、CV、OCR、知识图谱等技术,从网页、视频等内容中抽取实体、关系、事件等信息,构建高质量知识库。
社招5年以上A75470
1、开发及优化NLP算法,探索LLM等前沿NLP技术并应用于智能问答,内容创作等场景; 2、针对海量文章、用户数据进行深度挖掘; 3、与产品和业务团队紧密合作,实现模型在相应场景的落地。
更新于 2024-07-30