首页
院校与专家

康奈尔大学研究人员制造了可以阅读无声语音的声纳眼镜

10-19 18:52
515

信息科学领域的博士生张瑞东戴着EchoSpeech眼镜。

康奈尔大学未来交互智能计算机接口 (SciFi) 实验室的研究人员开发了声纳眼镜，可以读取用户的无声语音。

这是一种看似普通的现成眼镜，称为 EchoSpeech——一种无声语音识别界面，它使用声学感应和人工智能，根据嘴唇和嘴巴的运动连续识别多达 31 条未发声的命令。

研究人员说，这种低功耗、可穿戴的界面只需要几分钟的用户训练数据，就可以识别命令并可以在智能手机上运行。

“对于无法发声的人来说，这种无声语音技术可能是语音合成器的绝佳输入。它可以让患者重新发声，”首席研究员张瑞东谈到该技术的进一步发展的潜在用途时说。

EchoSpeech 眼镜配备了一对麦克风和比橡皮擦还小的扬声器。这有助于可穿戴式AI驱动的声纳系统在面部发送和接收声波并感知嘴部运动。然后，深度学习算法实时分析这些回波剖面，准确率约为 95%。

这种声学传感技术消除了对可穿戴摄像机的需求。由于音频数据比图像或视频数据小得多，因此需要较少的带宽来处理，并且可以通过蓝牙实时传输到智能手机。

“而且由于数据是在你的智能手机上本地处理的，而不是上传到云端，”康奈尔鲍尔斯 CIS 信息科学教授兼合著者 François Guimbretière 说，“隐私敏感信息永远不会离开你的控制。”

在目前的形式下，EchoSpeech 可用于在语音不方便或不合适的地方通过智能手机与他人交流，例如嘈杂的餐厅或安静的图书馆。当前版本的眼镜可提供 10 小时的声学感应电池续航时间，而摄像头则为 30 分钟。

研究人员现在正在探索将 EchoSpeech 背后的技术商业化，部分归功于 Ignite：康奈尔研究实验室市场缺口资金。在未来的工作中，该团队正在探索智能眼镜应用来跟踪面部、眼睛和上半身的运动。

03:21

标签:

版权声明

版权声明

本网站刊载的所有内容，包括文字、图片、音频、视频、软件、程序等均在原创资讯或者网上搜集，访问者可将本网站提供的内容或服务用于个人学习、研究,以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可.本网站内容原作者，转载文章版权人如不愿意在本网站刊登内容，请及时通知本站，予以删除。

相关推荐

滕俊杰影视工作室正式落户上海大学上海电影学院

淮北矿业集团绿色化工新材料研究院到化学与材料科学学院开展校企合作

中国工程院院士、吉林农业大学教授李玉：食用菌是新质生产力的代表是支撑国家粮食安全的生力军

申请合作