通过实时摄像头输入体验 FastVLM 的视觉能力。此演示提供即时的视觉理解和字幕生成。
此演示通过实时摄像头访问直接在您的浏览器中运行 FastVLM,实现实时视觉理解和字幕生成。
这个交互式演示展示了 FastVLM 使用您设备摄像头的实时视觉语言能力。模型处理实时视频流以提供即时的视觉理解和字幕生成。演示需要摄像头访问权限才能正常工作。演示使用 WebGPU 进行加速推理,确保流畅的实时性能。
此演示需要访问您设备的摄像头以进行实时视频字幕生成。请在提示时允许摄像头权限。