| 
    
	
	 | 
  
  
    |   | 
   
  
    
	
	
	  
	  
	  
        
        
         
        
          
            |   | 
            职位描述  用小程序查看更多  | 
             | 
           
          
            语言要求: 简体中文,英语 教育背景要求: 本科及以上
  业务技能要求: 1. 有 5 年以上工作经验; 2. 有较强的逻辑/概率思维能力,善于分析、归纳、描述、沟通、和解决问题; 3. 能独立承担系统设计、开发、调测等开发任务; 4. 能快速接受和掌握新技术,有较强的独立、主动的学习能力。 5. 对AI Infra领域有强烈兴趣优先
  专业知识要求: 1. 熟练掌握 Python、C++等编程语言; 2. 具备计算机系统、软件设计、AI模型或者集合通信等专业知识中的一种或多种; 3. 了解大模型相关的概念和知识。 4. 了解大模型训练原理,强化学习原理 5. 有大模型精度调优经验,有基模训练经验或者RL训练经验 6. 了解算子融合、量化、KV压缩、投机推理、PD分离等常用大模型推理技术 7. 熟悉大模型推理框架(如vLLM、SGLang等)优先 8. 有GPU/国产计算卡算子开发经验优先 9. 有顶会论文者优先 训练方向: 1. 调研和洞察业界大模型训练MFU提升的关键技术,结合大模型训练负载(Dense、MoE、Agent、RL、多模态等)和国产硬件架构特点,制定优化方案并实施落地 2. 调研业界训练集群利用率和训练可靠性的关键技术,针对训练集群特点参与设计技术方案并实施落地 3. 从实际业务场景出发,深度参与算法-系统协同优化,开展可商用的颗粒化技术创新和落地 4. 解决在模型训练中遇到的性能、精度问题;并完成问题总结复盘,形成作战指导书 5. 支撑在国产硬件上完成大语言模型、多模态大模型的预训练和强化学习后训练 6. 展开针对业务场景、模型架构、训练方法的洞察,结合国产硬件特点产出训练侧垂直洞察报告,并根据洞察结果,设计适合国产硬件的差异化竞争方案。 7. 行业趋势洞察与场景牵引:深入分析大语言模型应用发展趋势,跟踪模型能力提升路径(如COT, RLHF, PPO, GRPO, MOE,超长序列扩展等),洞察模型结构演进、算力需求、训练方法演进、输出具备洞察结果。
  推理方向: 1. 调研洞察业界大模型推理优化的关键技术,包括不限于量化、KV压缩、投机推理、PD分离、大EP MOE优化等,融合客户景需求和硬件架构特点,制定深度优化方案并实施落地 2. 深刻理解国产算力架构,必要时开发融合算子,算法和系统结合,端到端完成关键优化特性的交付和落地 3. 熟练使用性能分析工具,发现负载性能瓶颈并优化之 4. 大模型推理服务化引擎和框架的开发和优化。从业务端到端视角审视优化空间,并推动技术方案设计、实施和商用交付。 5. 展开针对业务场景、模型架构、推理加速方法、推理框架的洞察,结合硬件特点产出训练侧垂直洞察报告,并根据洞察结果,设计适合国产硬件的差异化竞争方案。 6. 行业趋势洞察与场景牵引:深入分析大语言模型应用发展趋势,跟踪典型应用场景(如聊天机器人,RAG, Agent,Agent Group),洞察模型结构、算力需求、系统瓶颈,输出具备前瞻性的性能优化建议。
  | 
              | 
           
          
            |   | 
          
             | 
           
         
             
            
            
             
            
             
            
           
        
         
        
        
         | 
   
  
    |   | 
   
 
	
	
	
	
	
	
	
	
	
     |