什么是BERT？BERT和BiLSTM有什么区别？

更新时间:2023-05-26 来源:黑马程序员浏览量:

BERT是谷歌公司提出的预训练模型，主要模拟语言模型和语句预测。由12层transformer的编码器罗列组成，可以进行迁移学习从而满足不同要求任务，也可以用来进行词向量生成。

Bert是一个预训练模型，bilstm是一个模型结构。首先两个结构不同，bert是基于transformer改进而来引入多头注意力机制等，bilstm是一个时间序列的模型包含遗忘门、输入门、输出门、细胞状态。

Bert中利用了attention，在谷歌论文中 attention is all you need 中提出了多头注意力和transformer，bert是由12层transformer的编码器罗列组成。

关于Q，K，V：Q可以理解为一段文本，K 可以理解为关键词提示，V可以理解为模型学习后对文本关键部分的理解。在模型训练时，K V由编码器给出，Q由解码器给出，模型根据Q以及K学习理解文本的关键含义得到V。

最新资讯