柔性可穿戴的声音采集设备具有可拉伸、贴合皮肤及高灵敏特性。然而,声带的振动和肌肉的收缩是复杂且多变的,这会降低设备的探测效果。深圳大学张晗教授、丁惠君老师团队和AI雷达感知技术专业研究所集萃感知的所长岳玉涛教授通过将深度学习网络(Deep learning)和二维 MXenes相结合,成功地制备了基于MXenes的人工喉声音探测器。该声音探测器具有增强的识别能力以及对压力和振动的敏感响应,从而有利于开发高识别度和分辨率的声音探测器。通过使用基于MXenes的声音探测器获得的大量数据训练和测试深度学习网络模型,可以成功识别人类发出的长元音和短元音。该设计推进了基于二维MXenes的人工喉设备在生物医学领域的应用,并开辟了在语音控制,运动监控和许多其他领域中的实际应用。该论文“Deep‐Learning‐Enabled MXene‐Based Artificial Throat: Toward Sound Detection and Speech Recognition”发表在《Advanced Materials Technologies》期刊上。  MXene是一类二维结构的过渡金属碳化物和/或氮化物。MXene具有许多优异的优点,包括良好的抗氧化性,出色的导电和机械性能。近年来,基于MXene的传感器研究发展迅猛。目前,许多柔性传感器可以用于检测人的发音信号。然而,这些研究仅实现了对人类喉咙发音的基本检测,而没有进一步应用于人工智能语音识别领域,以帮助我们准确识别发音内容的可行性。我们通过HF蚀刻MAX相粉末并超声剥离制备了MXenes。XRD图谱中(002)峰位蓝移且宽化,表明其晶格间距变大。进一步通过SEM和TEM测试,可以看到MXene具有典型的二维结构特征。
图2 MXenes的结构表征 图3 MXenes人工喉器件结构及形变相应机制
我们将超声剥离后的少层MXenes悬浊液通过抽滤成膜,制备出纯MXenes柔性膜,我们进一步连接电极并附着一层柔性的PDMS支撑膜,制备出了基于MXenes的柔性人工喉原型器件。通过对不同频率和声压级的声音信号激励测试,发现该器件表现出良好的响应行为。 我们进一步将上述器件贴合于人喉部,并测量在不同发音下的响应行为。我们测量了六组不同的汉语发音的响应行为。测量结果表明,MXene声音探测器对不同发音具有特征响应峰。 尽管MXene声音探测器能够区分不同的人类发音,但仍不清楚所检测到的信号是否足以进行语音识别。一方面,当检测到的信号不能提供足够的信息或干扰严重时,语音识别的准确性大大降低,另一方面,复杂的应用环境对设备造成的干扰会影响测试结果。在提高MXene声音探测器性能的同时,我们还需要开发一种性能优越的鲁棒语音识别算法来应对上述复杂情况。近年来,深度学习方法在数据学习方面得到了不断优化,其抗干扰能力和复杂环境适应性远高于传统方法。因此,我们结合深度学习网络,将大量检测到的响应信号与深度学习网络相结合,可以深入分析来自不同发音检测到的电阻变化数据,从而获得良好的识别结果。我们将1500组数据作为数据集,随机选取1050组数据进行训练,包括525个长元音和525个短元音,其余数据包括225个长元音和225个短元音用作测试数据集。随着训练数据的增加,准确率也不断上升,最终稳定在~95%。同时,通过深度学习网络识别数据,表现出理想的识别作用。在未来,随着数据集的不断丰富,我们的MXene声音探测器有可能成为可穿戴的人工喉咙设备,以帮助患者进行交流。深圳大学靳雨锟、北京大学深圳医院温博博士为论文的共同一作作者,本论文的通讯作者为深圳大学丁惠君博士和张晗教授,集萃感知所长岳玉涛教授在研究过程中给予了大力指导。Deep‐Learning‐Enabled MXene‐Based Artificial Throat: Toward Sound Detection and Speech RecognitionYukun Jin, Bo Wen, Zixiong Gu, Xiantao Jiang, Xiaolan Shu, Zhenping Zeng, Yupeng Zhang, Zhinan Guo, Yun Chen, Tingting Zheng, Yutao Yue, Han Zhang,Huijun DingAdvanced Materials Technologies,2020-07-06 DOI: 10.1002/admt.202000262该论文只做学术交流使用,无任何商业目的。 版权所属为1999-2020 John Wiley & Sons |