今天,几乎每个人都听说过 LLM,并且有数千万人尝试过它们。但是,仍然没有多少人了解它们的工作原理。

如果您对这个主题有所了解,您可能听说过 LLM 受过“预测下一个单词”的训练,并且它们需要大量文本来执行此作。但解释往往到此为止。他们如何预测下一个单词的细节通常被视为一个深奥的谜团。

其中一个原因是这些系统的开发方式不同寻常。传统软件是由人类程序员创建的,他们为计算机提供明确的分步说明。相比之下,ChatGPT 建立在神经网络之上,该神经网络使用数十亿个普通语言单词进行训练。

因此,地球上没有人完全了解 LLM 的内部工作原理。研究人员正在努力获得更好的理解,但这是一个缓慢的过程,需要数年甚至数十年才能完成。

现在推荐给大家的这篇文章,就是帮助大家理解大语言模型的最好科普文。

点下面链接读原文(可能需要科学上网)
https://www.understandingai.org/p/large-language-models-explained-with

标签: 大模型, 词向量, ChatGPT

添加新评论