金融界2024年12月25日消息,国家知识产权局信息显示,天津中科智能识别有限公司申请一项名为“基于跨模态注意力机制的监控音视频联合优化方法”的专利,Kaiyun官网 登录入口公开号CN 119172500 A,申请日期为2024年8月。
专利摘要显示,本发明公开一种基于跨模态注意力机制的监控音视频联合优化方法,包括:对监控获得的音频文件中的音频进行降噪;构建监控获得的视频文件中用户特征和降噪后音频文件中的语音特征的特征映射关系;通过所述特征映射关系进行降噪后音频的特征识别标识,Kaiyun官网 登录入口获得标识结果;基于所述标识结果与偏离验证时间区间进行音视频的同步匹配,获得同步匹配结果;根据校正需求信息确定视频的特征帧数量,根据所述特征帧数量和所述同步匹配结果生成校正特征帧,根据所述校正特征帧进行音视频的同步调整。本发明解决了传统监控系统中在户外场景中音视频不同步,现场音质不清晰等问题。