共找到 1 篇文章,
当前第 1 / 1 页
... 或 Video Transformer 架构。这类模型不仅能识别某一帧的静态特征,还能理解动作在时间维度上的演变(例如:区分“坐下”与“起身”的连续过程)。 多模态融合(Multi-modal Fusion): 利用注意力机制(Attention Mechanism)将视觉动作特征与音频特征进行对齐。例如,当视觉检测到“抓挠”动作且音频检测到“指甲摩擦声”时,系统将极大增强“皮肤病风险”这一判定...
1
热门文章
最新发布