意念打字破新纪录！心中想着「说话」，词就蹦跶出来，来自斯坦福|环球速递

来源：量子位　2023-02-02 19:47:24

詹士发自凹非寺
量子位 | 公众号 QbitAI

意念打字新纪录诞生！

(资料图片仅供参考)

受试者通过植入设备，平均输入速度能达每分钟62个单词，是团队之前纪录的3倍。

同时准确率也有明显提升，面向50个单词词汇表，识别准确率比先前纪录提升2.7倍。

据研究者称，这已开始接近正常人沟通速度（每分钟160个单词）。

不信？那就看看现场实况。

受试者“按词输入”，点点头就出了个句子，还是蛮丝滑的：

相比下，此前研究按“字母”逐个输入，显得更费劲不少：

△ 2021年登Nature封面的成果展示

创造该纪录的团队来自斯坦福，前两天，他们刚将相关论文预印本放上bioRXiv，引来不小关注。

未参与项目的加州大学旧金山分校研究员Philip Sabes，将之称为“重大突破”。他认为，相关技术很快将走出实验室，进入落地阶段。

不少网友也对该成果也相当兴奋，Reddit点赞上万，有人恨不能立马给家人整一套。

值得一提的是，论文发表同一天，共同主要作者之一的Krishna Shenoy因胰腺癌去世，不少学者与研究机构为此悼念。

所以这回，科学家们如何创造出意念打字新纪录？与之前方式有什么不同？

继续往下看。

识别开口说话的神经活动情况

意念打字过去一直是脑科学领域的热门研究方向，也备受社会大众关注，更早之前的实现方法是——让受试者在脑中手写字母，或是在脑中读出特定读音，再靠系统识别。

此次，科学家们用了不同的信息识别办法——直接让受试者“说”出来，哪怕只在大脑里。

具体来说，他们依靠一套语音脑机接口（BCI）系统，识别人类说话中相关的口腔、面部神经活动情况，通过解码其动作控制信号，再去输出受试者想表达的文本。

基于上述思路，科学家们开展了一系列实验。

此番受试者是一位女性，时年67岁，她在57岁时被诊断出患有肌萎缩性侧索硬化症 (ALS)，该病症让她在很长时间被吐字发音不清折磨，说话仅能发出几个元音，辅音几乎很难分辨。

为保护隐私，该受试者被团队称为T12，2021年的研究中，他们也用了同样方法，将另一位男性受试者称为T5。

2022年3月，经当事人同意，科学家为其在脑中植入四个微电极阵列，以检测语言相关神经活动情况。

在植入后的实验中，科学家先让受试者尝试做不同动作，观察相关区域的神经活动状况。

比如，让受试者睁眼、闭眼、眨眼以观察控制眼皮相关神经元活动；再比如让嘴唇张开、闭合、微笑，以检测相关脑区活动。当然，实验观察部位还包括：额头、下巴、喉部、舌头等。

科研团队发现，不同动作之间神经活动高度分离，在特定检测频率下，他们针对34个口部面部动作进行解码，准确率为92.7%，若面向39个音素，解码准确率为60%。这侧面说明原计划具备可操作性。

下一步是将说话的相关神经活动和文本关联起来。

科研工作者预先准备了一个RNN解码器，以80ms为间隔，检测识别神经活动信号，这当中，神经网络会依靠最大概率判断输出单词，错误的发音也将被纠正，最终输出文本。

为训练该网络，受试者需要每天尝试输出260-280语句的数据。

百天之后的测试中，无论是否发出声音，对单词的识别速度均在每分钟50词以上，该表现大约是该团队此前2021年纪录的3倍。

且无论面向50个单词，还是12500个单词，解码效率差异不大。

识别错误率也有大幅改善。

针对50个单词的表达，识别错误率在9.1%，即便受试者进行不发声表达，错误率也仅11.2%。

针对12500单词库时，表达识别的错误率为23.8%，不发声输出错误率为24.7%，该错误率与之前研究面向50词的测试情况正误情况基本持平，能看出该方法准确度大幅上升。

上述测试之外，科学家还探究了哪些方向能进一步优化该系统。

他们考虑了三个维度——语言模型词汇量、植入脑部电极数量、训练数据集大小。

结果显示，随着单词数量提高，错误率的确会升高，但在1000词量级趋于平缓（下方左图），团队由此认为，日后研究通过压缩单词数不一定有效。

但对于植入电极数量来说，更多的通道数（精度）的确会带来错误率降低。如下方右图，从500提升到1000，错误率从4%，降低到了1.9%。

另值得一提的是，即便未经训练，面向新数据，系统单词错误率也只有30%。且通过训练，错误率会不断下降。

对于后续研究，团队指出该成果目前还不是完整的、临床上可落地的系统。此外，24%错误率在日常生活中也还不够低，后续研究将在各方面努力。

意念打字一直热度不减

本文一作是Francis Willett，来自斯坦福霍华德休斯医学研究所，主要研究领域为脑机接口、运动神经科学，他也对人工神经网络模型有所涉猎。

2021年登上Nature封面的意念打字研究中，他也是一作。跟上次一样，此番他表示——将会公布研究的代码和数据。

另一位主要作者是Erin Kunz，来自斯坦福电气工程系在读博士，此前，她还曾在通用担任自动驾驶工程师。

前文提及刚刚过世的Krishna Shenoy也是本文主要作者。

2021年登Nature的论文，他亦是贡献者之一，此前研究中，他破译了与手写笔记相关的大脑信号，让截瘫患者快速准确地打字。

该项工作十分关键，因为当时他们使用的方法是—— 让受试者在脑中“写出”字母 。

除该团队，在“意念打字”这件事上，还有更多科学家在努力。

比如2022年11月，加利福尼亚大学旧金山分校（UCSF）提出的一种不同方法。他们通过植入128通道皮质电图（ECoG）阵列，外加一个经皮连接器，用来连接植入设备和外部系统。

在识别方式上，他们所想到的是——让受试者在脑中默念字母NATO代码（比如α代替a，β代替b），完成逐个字母输入，平均2秒可键入一个字母，最终平均字符错误率仅6.13%。

之前，量子位智库对该趋势也有所展望，认为“意念打字”乃至背后的脑机接口技术已在商业化发展上初具雏形。

清华李路明团队、瑞金医院、浙江大学及浙大二院神经外科等团队或机构，均有所积累。

另值得一提的是，去年末马斯克及Neuralink还让猴子搞了一回“意念打字”，虽说是用训练猴子意念点击屏幕中的黄色按钮，但也算“蹭”了一波。

当时，马斯克还说，他和Neuralink已向FDA递交了诸多文件，预计6个月后（预计今年六月）开启人体试验。

但能不能等到，还真不一定……

毕竟同样的话，他在2022年4月已说过一次了。（狗头）

参考链接： [1]https://www.technologyreview.com/2023/01/24/1067226/an-als-patient-set-a-record-for-communicating-via-a-brain-implant-62-words-per-minute/ [2]https://www.freethink.com/hard-tech/speech-bcis [3]https://www.biorxiv.org/content/biorxiv/early/2023/01/21/2023.01.21.524489.full.pdf

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

关键词：科学家们旧金山分校系统识别

推荐DIY文章