|
|
| |
| |
职位描述 用小程序查看更多 |
|
1.跟进VLLM预训练、SFT、RLHF等技术,探索视频行为理解、真实场景解析及音频-视频协同建模的应用; 2.研究多模态稀疏检索、稠密表征技术,解决视频中物体行为建模、场景语义关联及环境声音识别问题; 3.研发行为识别、动作预测算法,结合视频、音频等多源数据实现施工场景的精细化建模(如机械操作、人员活动); 4.设计跨模态特征融合策略(视频+音频),提升目标追踪、意图推断与上下文关联能力(如通过声音定位施工设备状态); 5.建立工地场景的环境声音建模能力,识别机械施工声(如打桩、切割)、异常噪声等,与视频中设备行为进行关联验证; 6.研究多模态时序对齐技术,解决视频帧与音频信号的同步问题,提升施工状态判定的准确性; 7.推动多模态模型压缩(量化、剪枝、蒸馏),优化视频+音频数据的联合特征编码与推理调度策略; 8、开发高效推理框架,提升高分辨率视频任务的实时性与吞吐量; 9、构建视频-音频-文本相关性标注与评测系统,支持行为描述生成与场景匹配评估; 10、研究多模态幻觉缓解技术(如跨模态一致性校验),提升模型输出的可信度与鲁棒性; |
|
| |
|
|
| |
|