用光纤存储和处理数据，MIT打造出一款超级通用大语言模型

2023-08-26 15:00:10 来源：搜狐数码

(资料图片)

你有没有想过，用光来训练人工智能，让它能够像人一样说话、写作、创作？听起来很酷吧？其实，这不是科幻小说里的情节，而是美国麻省理工学院（MIT）的研究人员正在做的事情。他们发明了一种新的技术，可以利用光来实现大型语言模型。什么是语言模型呢？简单来说，就是一种可以根据上下文生成自然语言文本的人工智能技术。比如，你可以用语言模型来和它聊天、写文章、做作业、唱歌等等。语言模型越大，就越聪明，越能理解和表达人类的语言。

但是，要训练一个大型的语言模型，可不是一件容易的事情。你需要用很多很多的数据来喂它，让它学习和记忆。这些数据都要存储在电子芯片上，然后用电流来传输和处理。这样做有两个问题：第一，电子芯片的空间有限，不能存储太多的数据；第二，电流的速度有限，不能传输和处理太快的数据。所以，要训练一个大型的语言模型，你需要用很多很多的电子芯片，然后把它们连接起来，形成一个超级计算机。这样做不仅很贵，而且很慢，还很费电。

那么，有没有更好的办法呢？MIT的研究人员说：有！他们提出了一种新的方法，利用光来实现大型语言模型。他们设计了一种基于光的神经网络，可以在光纤中存储和处理数据，而不是在电子芯片上。这种方法有很多优点：第一，光纤的空间很大，可以存储很多很多的数据；第二，光的速度很快，可以传输和处理很快很快的数据。所以，用光纤来训练一个大型的语言模型，你只需要用很少很少的光纤，然后把它们连接起来，形成一个光子计算机。这样做不仅很便宜，而且很快，还很省电。

那么，他们是怎么做到的呢？他们用了一种叫做“可变光学延迟线”的设备，它可以在光纤中暂时存储光信号。你可以把光信号想象成一种特殊的数据，它可以携带信息，并且可以被改变和操作。他们通过调节光纤中的一些小东西，比如反射镜、透镜、分束器等等，他们可以对光信号进行各种各样的操作，比如编码、解码、加权、激活等等。这些操作就相当于神经网络中的功能。

他们还用了一种叫做“相干性”的物理特性，它可以使不同波长的光信号之间产生干涉效应。你可以把干涉效应想象成一种特殊的运算，它可以把两个或多个光信号合并成一个，或者把一个光信号复制成多个。这样，他们就可以在不增加硬件复杂度的情况下，扩展系统的规模和并行度。

他们用自己的系统构建了一个简单的语言模型，并在一些基准任务上进行了测试。他们发现，他们的系统可以达到与电子芯片相当甚至更好的性能，同时速度更快、功耗更低。他们估计，如果将他们的系统扩展到数百亿个参数的规模，它可以比目前最先进的电子芯片快1000倍，同时功耗降低1000倍。

这项研究发表在《自然·光子学》杂志上。该研究团队由MIT微纳米技术实验室（MTL）和MIT计算机科学与人工智能实验室（CSAIL）的研究人员组成。他们表示，他们的方法为开发更强大而高效的大型语言模型提供了一个新的方向，并且有望推动其他基于光的人工智能应用。

责任编辑：

标签：