字节跳动大模型应用算法实习生-国际化内容安全算法研究-筋斗云人才计划

实习兼职A1600522025-03-05地点：北京状态：招聘

扫码手机上打开

任职要求

1、2026届及之后毕业，博士在读，计算机、电子等相关专业优先；
2、丰富的ML/CV/NLP/推荐经验，包括但不限于：
1）机器学习/数据挖掘/CV/NLP/多模态等相关竞赛或行业经验；
2）机器学习/数据挖掘/人工智能/大模型相关领域的会议论文（KDD/WWW/NIPS/ICML/CVPR/ACL/AAA…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：国际化内容安全算法研究团队致力于为字节跳动国际化产品的用户维护安全可信赖环境，通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件，团队同时负责产品基座大模型的研发，我们在研发过程中需要解决数据合规、模型推理能力、多语种性能优化等方面的问题，从而为平台上的内容审核、搜索、推荐等多项业务提供安全合规，性能优越的基座模型。

课题介绍：
背景：近年来，大规模语言模型（Large Language Models, LLM）在自然语言处理和人工智能的各个领域都取得了显著的进展。这些模型展示了强大的能力，例如在生成语言、回答问题、翻译文本等任务上表现优异。然而，LLM 的推理能力仍有很大的提升空间。在现有的研究中，通常依赖于大量的监督微调（Supervised Fine-Tuning, SFT）数据来增强模型的推理性能。然而，高质量 SFT 数据的获取成本高昂，这对模型的开发和应用带来了极大的限制。为了提升推理能力，OpenAI 的 o1 系列模型通过增加思维链（Chain-of-Thought, CoT）的推理过程长度取得了一定的成功。这种方法虽然有效，但在实际测试时如何高效地进行扩展仍是一个开放的问题。一些研究尝试使用基于过程的奖励模型（Process-based Reward Model, PRM）、强化学习（Reinforcement Learning, RL）以及蒙特卡洛树搜索算法（Monte Carlo Tree Search, MCTS）等方法来解决推理问题，然而这些方法尚未能达到 OpenAI o1 系列模型的通用推理性能水平。最近deepseek r1在论文中提到通过纯强化学习的方法，可以使得 LLM 自主发展推理能力，而无需依赖昂贵的 SFT 数据。这一系列的工作都揭示着强化学习对LLM的巨大潜力。


1、Reward模型的设计：在强化学习过程中，设计一个合适的reward模型是关键。Reward模型需要准确地反映推理过程的效果，并引导模型逐步提升其推理能力。这不仅要求对不同任务精准设定评估标准，还要确保reward模型能够在训练过程中动态调整，以适应模型性能的变化和提高；
2、稳定的训练过程：在缺乏高质量SFT数据的情况下，如何确保强化学习过程中的稳定训练是一个重大挑战。强化学习过程通常涉及大量的探索和试错，这可能导致训练不稳定甚至模型性能下降。需要开发具有鲁棒性的训练方法，以保证模型在训练过程中的稳定性和效果；
3、如何从数学和代码任务上拓展到自然语言任务上：现有的推理强化方法主要应用在数学和代码这些CoT数据量相对丰富的任务上。然而，自然语言任务的开放性和复杂性更高，如何将成功的RL策略从这些相对简单的任务拓展到自然语言处理任务上，要求对数据处理和RL方法进行深入的研究和创新，以实现跨任务的通用推理能力；
4、推理效率的提升：在保证推理性能的前提下，提升推理效率也是一个重要挑战。推理过程的效率直接影响到模型在实际应用中的可用性和经济性。可以考虑利用知识蒸馏技术，将复杂模型的知识传递给较小的模型，以减少计算资源消耗。另外，使用长思维链（Long Chain-of-Thought, Long-CoT）技术来改进短思维链（Short-CoT）模型，也是一种潜在的方法，以在保证推理质量的同时提升推理速度。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

机器学习+

数据挖掘+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生- 多模态大模型算法实习生

实习大模型

【职位描述】我们是小红书安全风控平台部/算法策略组/内容安全组，目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研，目前在相关数据&技术方向有一定的积累，并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战，作为实习生，你将有机会与产品、工程紧密合作，将研究算法应用到实际问题中，并解决有难度有价值的问题，促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于： 1. 基础多模态表征：主要研究小红书多模态数据（笔记）下的基础多模态表征工作，包括层次化表征、特征融合、自监督探索等，作为基础模型，支持多样化检索场景。 2. 通用多模态大模型：通用多模态大模型在安全领域理解相关研究，包括高效微调、多模态理解等。建立安全多模态基础模型。

北京

多模态大模型算法实习生-交易安全

实习风控算法

1、拥抱大模型技术，改进当前内容理解和用户行为理解技术的范式，应用到小红书电商风控&治理场景来解决实际业务问题； 2、进行大模型前沿技术探索和研发，发表国际顶级论文 3、参与大模型相关的业务落地，包括但不限于直播图文信息抽取、文本&用户行为理解、视频结构化、消费者和商家画像、信息抽取、智能摘要、意图理解等；

北京|上海

实习阿里国际2026

Bravo 102是由阿里国际技术全团队共同发起的全球顶尖技术人才孵化计划，打破传统人才选拔及培养框架，为有志于走向AI未来的技术新锐们，提供“你行你上+我要我来”的双向奔赴式的实习机会选择。在这里，“我”将不被岗位定义，以能力选择业务战场，与全球顶尖团队并肩作战，沉浸式体验全球多元化业务战场与亿级流量高并发系统。加入我们，成为AIDC首批102位Bravo Talent，一起掌舵AI，为我们的未来Bravo！关于我们：阿里巴巴国际技术专注于提供卓越的数字零售技术服务，以支持阿里巴巴旗下多个国际化电商平台。我们致力于将最前沿的人工智能技术与国际化电商业务问题深度结合，为全球消费者打造更方便快捷更智能化的购物体验，同时帮助广大商家实现更高效的经营。我们的技术领域覆盖搜索推荐广告技术、用增技术、供应链技术、机器学习、自然语言处理、计算机视觉、大模型技术、风控、金融服务等诸多方向，实习生有机会参与多算法团队轮岗，深度参与前瞻性技术攻坚，探索兴趣赛道并锚定职业发展方向；欢迎加入我们一起打造最先进的数字化及人工智能技术以驱动全球电商业务发展。以下工作内容你均有可能参与： 1、参与并负责搜索、推荐算法研发，提升全球30+种语言的搜索精准性和国家差异化个性化推荐体验。 2、参与并负责广告算法研发，提升全域流量广告流量变现效率，通过竞价及投放优化、素材生成等提升商家投放效率。 3、参与并负责用增算法的研发，提升电商获客效率，建设优化个性化外投广告、个性化触达消息、个性化权益补贴等算法能力。 4、参与并负责供应链算法和定价算法的研发，优化库存周转和订单履约的效率和损益，提升销量预测、时效预测和定价算法的准确性，进而实现零售经营的降本增效。 5、参与研发生成式 AI、AI Agent 等前沿技术，推动生成式AI在国际电商领域的创新应用。 6、参与风控算法的研发，理解和识别跨国别差异化的商品合规、账户安全、交易安全和反欺诈、营销反作弊等多个领域的潜在风险，并持续优化，维护平台的健康生态。

更新于 2025-04-25北京|杭州|广州

算法工程师-自然语言处理

实习饿了么春季202

饿了么广阔的商业生态需要丰富且深入的的自然语言处理技术，涵盖了从应用层的机器翻译、智能对话、智能客服、广告搜索, 信息抽取以及在安全等行业应用到底层的词法分析、句法分析、语义分析、文档分析、深度文本表示、文本生成、知识库建设。具体职责包括但不限于： 1、紧跟业界最新自然语言处理技术动态，深入研发并努力创新自然语言处理相关的知识库、词法、句法、语义、文档分析、深度学习、机器翻译、智能对话等技术，包括新颖的算法/模型的提出，模块的实际开发，对接自然语言处理平台的接入以及把高水平研发成果以论文/专利等形式进行发布； 2、理解自然语言处理技术应用的相关的业务场景及需求，在自然语言处理技术内核的基础上考虑业务场景的特殊性进而适当适配业务需求； 3、在核心技术研发之外，也会适当参与到具体的NLP相关业务中，例如文本内容的理解，商业场景的多语言多模态翻译和沟通，搜索Query分析、智能对话的语义解析及意图理解、商品评价的语义理解、内容搜索推荐的结构化分析、商品搜索推荐的标签体系、社会化问答的文本分析、智能客服的场景定制等。

更新于 2025-02-27北京|上海