收起左侧

告别呼唤“小爱同学”:我开发了本地化 AI 手势控制智能家居,毫秒级响应

0
回复
511
查看
[ 复制链接 ]

1

主题

1

回帖

0

牛值

江湖小虾

【引言】 为什么我们需要“第三种交互”?

最近小米推出了的 miloco 视觉方案,其中一个场景展示了手势识别功能。这让我重新审视了目前智能家居的主流交互方式——语音控制。

作为一名资深智能家居玩家,在使用小爱音箱时,我常面临两个真实的痛点:

  1. 唤醒词的尴尬:每次操作前都要喊一句“小爱同学”,在深夜或安静环境下显得尤为笨拙繁琐。
  2. 多任务的冲突:当音箱正在播放**音乐,或者我正在接听重要电话时,想要暂停播放,还得大声喊话打断,体验非常割裂。

如果不说话,也不掏手机,能不能优雅地控制家里的一切? 答案就是:手势控制

【技术选型】 为什么是 MediaPipe?

虽然绿米早在 2021 年就推出了 AI 手势摄像头,但作为一个折腾爱好者,我更倾向于“榨干”现有设备的价值。我的目标很明确:用最普通的网络摄像头,跑通专业的 AI 识别

在简单思考后,我排除了通过 LLM(大模型)分析画面的方案,因为从截图到分析再到返回结果,至少几秒的延迟对于“开关灯”这种瞬时需求来说是不可接受的,同时一直调用LLM进行检测的成本我也承担不起。

最终,我锁定了 Google MediaPipe

  • 低延迟:专为实时设备端(On-Device)设计,速度极快。
  • 高精度:能够输出 21 个手部关键点,支持 3D 坐标追踪。
  • 开源免费:零成本,而且本地部署,是低成本打造智能交互方案的最佳选择。

官方体验链接:https://mediapipe-studio.webapps.google.com/demo/gesture_recognizer?hl=zh-cn

而我只需要将这套模型导入到本地,接上我的摄像头和小爱音箱就OK了!

【效果展示】 毫秒级响应的“魔法”体验

经过一番折腾,总算实现了想要的效果:

目前插件已支持 8 种基础手势,覆盖了绝大多数日常控制场景:

手势 描述 来源 准确率 用途示例
🖐️ 张开手掌 五指全部伸直 Google 内置 95%+ 开灯、播放
✊ 握拳 五指全部收起 Google 内置 95%+ 关灯、暂停
☝️ 食指向上 只有食指伸直 Google 内置 95%+ 音量增加、下一首
👍 点赞 拇指向上 Google 内置 95%+ 赞同、增加
👎 点踩 拇指向下 Google 内置 95%+ 反对、减少
✌️ 剪刀手 食指和中指伸出 Google 内置 95%+ 选项 2、胜利
🤟 我爱你 拇指+食指+小指伸出 Google 内置 95%+ 爱心、摇滚
👌 OK 手势 拇指食指接触成圈,其他三指伸直 自定义检测 ~85% 确认、同意

应用界面也提供实时预览:

项目已开源在github,欢迎大家体验~

  • 仓库链接:https://github.com/yanfeng17/gesture-ha-control
  • fpk安装包:https://pan.quark.cn/s/a9c63bbdde62

【部署教程】 4 步打造你的“AI 手势控制中枢”

  1. 前提条件:已安装Home Assistant以及xiaomi home等集成,可参考https://club.fnnas.com/forum.php?mod=viewthread&tid=40417&highlight=

  1. 获取Home Assistant的长期访问令牌

  1. 将Home Assistant的地址、令牌以及摄像头的RTSP地址输入到设置界面中

  1. 创建手势动作映射规则:

  • 案例1:张开手掌控制大灯开关

  • 案例2:食指向上控制音箱播放/暂停

  • 案例3:剪刀手唤醒音箱

【一起交流】

如果你对这个项目感兴趣,或者有更多好玩的AI+智能家居的点子,欢迎一起交流~

收藏
送赞 2
分享

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则