意念打字破新纪录!心中想着「说话」,词就蹦跶出来,来自斯坦福|环球速递

詹士 发自 凹非寺

量子位 | 公众号 QbitAI

意念打字新纪录诞生!


(资料图片仅供参考)

受试者通过植入设备,平均输入速度能达每分钟62个单词,是团队之前纪录的3倍。

同时准确率也有明显提升,面向50个单词词汇表,识别准确率比先前纪录提升2.7倍。

据研究者称,这已开始接近正常人沟通速度(每分钟160个单词)。

不信?那就看看现场实况。

受试者“按词输入”,点点头就出了个句子,还是蛮丝滑的:

相比下,此前研究按“字母”逐个输入,显得更费劲不少:

2021年登Nature封面的成果展示

创造该纪录的团队来自斯坦福,前两天,他们刚将相关论文预印本放上bioRXiv,引来不小关注。

未参与项目的加州大学旧金山分校研究员Philip Sabes,将之称为“重大突破”。他认为,相关技术很快将走出实验室,进入落地阶段。

不少网友也对该成果也相当兴奋,Reddit点赞上万,有人恨不能立马给家人整一套。

值得一提的是,论文发表同一天,共同主要作者之一的Krishna Shenoy因胰腺癌去世,不少学者与研究机构为此悼念。

所以这回,科学家们如何创造出意念打字新纪录?与之前方式有什么不同?

继续往下看。

识别开口说话的神经活动情况

意念打字过去一直是脑科学领域的热门研究方向,也备受社会大众关注,更早之前的实现方法是——让受试者在脑中手写字母,或是在脑中读出特定读音,再靠系统识别。

此次,科学家们用了不同的信息识别办法——直接让受试者“说”出来,哪怕只在大脑里。

具体来说,他们依靠一套语音脑机接口(BCI)系统,识别人类说话中相关的口腔、面部神经活动情况,通过解码其动作控制信号,再去输出受试者想表达的文本。

基于上述思路,科学家们开展了一系列实验。

此番受试者是一位女性,时年67岁,她在57岁时被诊断出患有肌萎缩性侧索硬化症 (ALS),该病症让她在很长时间被吐字发音不清折磨,说话仅能发出几个元音,辅音几乎很难分辨。

为保护隐私,该受试者被团队称为T12,2021年的研究中,他们也用了同样方法,将另一位男性受试者称为T5。

2022年3月,经当事人同意,科学家为其在脑中植入四个微电极阵列,以检测语言相关神经活动情况。

在植入后的实验中,科学家先让受试者尝试做不同动作,观察相关区域的神经活动状况。

比如,让受试者睁眼、闭眼、眨眼以观察控制眼皮相关神经元活动;再比如让嘴唇张开、闭合、微笑,以检测相关脑区活动。当然,实验观察部位还包括:额头、下巴、喉部、舌头等。

科研团队发现,不同动作之间神经活动高度分离,在特定检测频率下,他们针对34个口部面部动作进行解码,准确率为92.7%,若面向39个音素,解码准确率为60%。这侧面说明原计划具备可操作性。

下一步是将说话的相关神经活动和文本关联起来。

科研工作者预先准备了一个RNN解码器,以80ms为间隔,检测识别神经活动信号,这当中,神经网络会依靠最大概率判断输出单词,错误的发音也将被纠正,最终输出文本。

为训练该网络,受试者需要每天尝试输出260-280语句的数据。

百天之后的测试中,无论是否发出声音,对单词的识别速度均在每分钟50词以上,该表现大约是该团队此前2021年纪录的3倍。

且无论面向50个单词,还是12500个单词,解码效率差异不大。

识别错误率也有大幅改善。

针对50个单词的表达,识别错误率在9.1%,即便受试者进行不发声表达,错误率也仅11.2%。

针对12500单词库时,表达识别的错误率为23.8%,不发声输出错误率为24.7%,该错误率与之前研究面向50词的测试情况正误情况基本持平,能看出该方法准确度大幅上升。

上述测试之外,科学家还探究了哪些方向能进一步优化该系统。

他们考虑了三个维度——语言模型词汇量、植入脑部电极数量、训练数据集大小。

结果显示,随着单词数量提高,错误率的确会升高,但在1000词量级趋于平缓(下方左图),团队由此认为,日后研究通过压缩单词数不一定有效。

但对于植入电极数量来说,更多的通道数(精度)的确会带来错误率降低。如下方右图,从500提升到1000,错误率从4%,降低到了1.9%。

另值得一提的是,即便未经训练,面向新数据,系统单词错误率也只有30%。且通过训练,错误率会不断下降。

对于后续研究,团队指出该成果目前还不是完整的、临床上可落地的系统。此外,24%错误率在日常生活中也还不够低,后续研究将在各方面努力。

意念打字一直热度不减

本文一作是Francis Willett,来自斯坦福霍华德休斯医学研究所,主要研究领域为脑机接口、运动神经科学,他也对人工神经网络模型有所涉猎。

2021年登上Nature封面的意念打字研究中,他也是一作。跟上次一样,此番他表示——将会公布研究的代码和数据。

另一位主要作者是Erin Kunz,来自斯坦福电气工程系在读博士,此前,她还曾在通用担任自动驾驶工程师。

前文提及刚刚过世的Krishna Shenoy也是本文主要作者。

2021年登Nature的论文,他亦是贡献者之一,此前研究中,他破译了与手写笔记相关的大脑信号,让截瘫患者快速准确地打字。

该项工作十分关键,因为当时他们使用的方法是—— 让受试者在脑中“写出”字母

除该团队,在“意念打字”这件事上,还有更多科学家在努力。

比如2022年11月,加利福尼亚大学旧金山分校(UCSF)提出的一种不同方法。他们通过植入128通道皮质电图(ECoG)阵列,外加一个经皮连接器,用来连接植入设备和外部系统。

在识别方式上,他们所想到的是——让受试者在脑中默念字母NATO代码(比如α代替a,β代替b),完成逐个字母输入,平均2秒可键入一个字母,最终平均字符错误率仅6.13%。

之前,量子位智库对该趋势也有所展望,认为“意念打字”乃至背后的脑机接口技术已在商业化发展上初具雏形。

清华李路明团队、瑞金医院、浙江大学及浙大二院神经外科等团队或机构,均有所积累。

另值得一提的是,去年末马斯克及Neuralink还让猴子搞了一回“意念打字”,虽说是用训练猴子意念点击屏幕中的黄色按钮,但也算“蹭”了一波。

当时,马斯克还说,他和Neuralink已向FDA递交了诸多文件,预计6个月后 (预计今年六月) 开启人体试验。

但能不能等到,还真不一定……

毕竟同样的话,他在2022年4月已说过一次了。(狗头)

参考链接: [1]https://www.technologyreview.com/2023/01/24/1067226/an-als-patient-set-a-record-for-communicating-via-a-brain-implant-62-words-per-minute/ [2]https://www.freethink.com/hard-tech/speech-bcis [3]https://www.biorxiv.org/content/biorxiv/early/2023/01/21/2023.01.21.524489.full.pdf

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

关键词: 科学家们 旧金山分校 系统识别

推荐DIY文章
主机存在磨损或划痕风险 PICO4便携包宣布召回
穿越湖海!特斯拉Cybertruck电动皮卡可以当“船”用
vivoXFold+折叠旗舰开售 配备蔡司全焦段旗舰四摄
飞凡R7正式上市 全系标配换电架构
中兴Axon30S开售 拥有黑色蓝色两款配色
荣耀MagicBookV14 2022正式开售 搭载TOF传感器
it