Self-Supervised Learning

BERT的参数量为340M，模型在变得越来越大。

ELMo	BERT	GPT-2	Megatron	T5	Turing NLG	GPT-3	Switch Transformer
94M	340M	1542M	8D	11B	17B	175B	1.6T

7.1 Self-Supervised Learning

自监督学习将没有标注的资料分成两部分，让一部分作为模型的输入，另一部分作为模型的标注。

自监督学习可以看作一种无监督学习的方法。

7.2 BERT

7.2.1 Masking Input

7.2.2 Next Sentence Prediction

取两句话中间用[SEP]表示分隔，并在最前面加一个特殊符号[CLS]。将整个序列丢到 BERT（Transformer encoder）中得到序列，只取[CLS]所对应的输出，将其乘上一个线性变换，完成一个二元分类问题，预测两句话是否相接。
该方法现在已被证明对BERT后续的任务没有太大帮助。RoBERTa: A Robustly Optimized BERT Pretraining Approach 这可能是因为这个任务太简单了，所以对于BERT来说没有学到太多。另一种更有用的方法：SOP (Sentence order predicion) 被用于ALBERT: A Lite BERT for Self-supervised Learning of Language Representations。

7.2.3 Fine-tune

经过预训练的BERT可以用来解决下游任务，即我们真正关心的任务。一个比较常用的任务集是GLUE。

GLUE (General Language Understanding Evaluation)

Corpus of Linguistic Acceptability (CoLA)
Stanford Sentiment Treebank (SST-2)
Microsoft Research Paraphrase Corpus (MRPC)
Quora Question Pairs (QQP)
Semantic Textual Similarity Benchmark (STS-B)
Multi-Genre Natural Language Inference (MNLI)
Question-answering NLI (QNLI)
Recognizing Textual Entailment (RTE)
Winograd NLI (WNLI)

GLUE也有中文版本。

BERT及其家族在GLUE上的结果。图来自SuperGLUE: https://arxiv.org/abs/1905.00537

7.2.4 How to use BERT

Case 1

图来自Visualizing and Understanding the Effectiveness of BERT: https://arxiv.org/abs/1908.05620

Case 2

Case 3

Case 4

补充

训练BERT非常有挑战性！
训练数据超过了3亿个单词，是哈利波特全集的3000倍。

7.2.5 Why dose BERT work?

GitHub

main