岗位要求:对大规模在线服务(特别是AIServing)的架构有深刻理解,具备从应用请求到硬件执行的全链路性能分析、瓶颈定位和调优经验,深刻理解延迟、吞吐量、成本和可用性之间的复杂权衡; 有以下一个或多个领域的研发与优化经验者优先:LLM推理服务系统(如vLLM,Triton,RayServe)、AIAgent框架、向量数据库或近似最近邻(ANN)库、图数据库或图计算引擎。 3、核心系统与底层优化能力: 具备深厚的C/Python编程能力和扎实的系统编程功底; 精通GPU编程(CUDA)及相关的性能优化技术栈(如Cutlass,Triton),有高性能计算库或AI算子开发经验; 熟悉分布式系统的核心组件与协议,对高性能网络通信(如RPC框架设计,RDMA)和资源编排(如Kubernetes)有实践经验。 4、前沿探索与问题解决能力: 对AIInfra领域的系统性挑战充满热情,不满足于解决已知问题,能主动发现并定义新问题,并给出具备前瞻性的解决方案; 跟踪AI系统领域的前沿进展,在相关顶级会议(如OSDI,SOSP,MLSys,ASPLOS,ISCA,NSDI等)上发表过论文者是重要的加分 |
|