|
96 | 96 | - [9.3 【SpanBERT】微调](#93-spanbert微调)
|
97 | 97 | - [9.4 【SpanBERT】效果](#94-spanbert效果)
|
98 | 98 | - [十、MacBERT](#十macbert)
|
99 |
| - - [9.1 【MacBERT】动机](#91-macbert动机) |
100 |
| - - [9.2 【MacBERT】预训练](#92-macbert预训练) |
101 |
| - - [9.2.1 MLM](#921-mlm) |
102 |
| - - [9.2.2 NSP](#922-nsp) |
103 |
| - - [9.3 【MacBERT】微调](#93-macbert微调) |
104 |
| - - [9.4 【MacBERT】效果](#94-macbert效果) |
| 99 | + - [10.1 【MacBERT】动机](#101-macbert动机) |
| 100 | + - [10.2 【MacBERT】预训练](#102-macbert预训练) |
| 101 | + - [10.2.1 MLM](#1021-mlm) |
| 102 | + - [10.2.2 NSP](#1022-nsp) |
| 103 | + - [10.3 【MacBERT】微调](#103-macbert微调) |
| 104 | + - [10.4 【MacBERT】效果](#104-macbert效果) |
105 | 105 | - [参考](#参考)
|
106 | 106 |
|
107 | 107 | ## 总结
|
|
179 | 179 | <td>--</td>
|
180 | 180 | <td>--</td>
|
181 | 181 | </tr>
|
| 182 | + <tr> |
| 183 | + <td>SpanBERT</td> |
| 184 | + <td>SpanBERT: Improving Pre-training by Representing and Predicting Spans</td> |
| 185 | + <td>旨在更好地表示和预测文本的 span</td> |
| 186 | + <td>1. Span Mask <br/>2. Span Boundary Objective (SBO) <br/>训练目标 Single-Sequence Training</td> |
| 187 | + <td>--</td> |
| 188 | + <td>--</td> |
| 189 | + </tr> |
| 190 | + <tr> |
| 191 | + <td>MacBERT</td> |
| 192 | + <td>Revisiting Pre-trained Models for Chinese Natural Language Processing</td> |
| 193 | + <td>为了解决与训练阶段和微调阶段存在的差异性</td> |
| 194 | + <td>1. 使用Whole Word Masking、N-gram Masking <br/>2. 使用相似的word进行替换[MASK] <br/>3. 采用ALBERT提出的SOP替换NSP</td> |
| 195 | + <td>--</td> |
| 196 | + <td>--</td> |
| 197 | + </tr> |
182 | 198 | </table>
|
183 | 199 |
|
184 | 200 |
|
@@ -616,26 +632,26 @@ ERNIE-T 引入知识图谱来增强预训练模型的语义表达能力,其实
|
616 | 632 | > 论文:https://arxiv.org/abs/2004.13922</br>
|
617 | 633 | > 代码:https://github.com/ymcui/MacBERT</br>
|
618 | 634 |
|
619 |
| -### 9.1 【MacBERT】动机 |
| 635 | +### 10.1 【MacBERT】动机 |
620 | 636 |
|
621 | 637 | - 主要为了解决与训练阶段和微调阶段存在的差异性
|
622 | 638 |
|
623 |
| -### 9.2 【MacBERT】预训练 |
| 639 | +### 10.2 【MacBERT】预训练 |
624 | 640 |
|
625 |
| -#### 9.2.1 MLM |
| 641 | +#### 10.2.1 MLM |
626 | 642 |
|
627 | 643 | 1. 使用Whole Word Masking、N-gram Masking:single token、2-gram、3-gram、4-gram分别对应比例为0.4、0.3、0.2、0.1;
|
628 | 644 | 2. 由于finetuning时从未见过[MASK]token,因此使用相似的word进行替换。使用工具Synonyms toolkit 获得相似的词。如果被选中的N-gram存在相似的词,则随机选择相似的词进行替换,否则随机选择任意词替换;
|
629 | 645 | 3. 对于一个输入文本,15%的词进行masking。其中80%的使用相似的词进行替换,10%使用完全随机替换,10%保持不变。
|
630 | 646 |
|
631 |
| -### 9.2.2 NSP |
| 647 | +### 10.2.2 NSP |
632 | 648 |
|
633 | 649 | 采用ALBERT提出的SOP替换NSP
|
634 | 650 |
|
635 |
| -### 9.3 【MacBERT】微调 |
| 651 | +### 10.3 【MacBERT】微调 |
636 | 652 |
|
637 | 653 |
|
638 |
| -### 9.4 【MacBERT】效果 |
| 654 | +### 10.4 【MacBERT】效果 |
639 | 655 |
|
640 | 656 |
|
641 | 657 |
|
|
0 commit comments