3.3.1 GPT-2的模型结构