Transformers documentation
基于BERT进行的相关研究(BERTology)
开始使用
教程
使用pipelines进行推理使用AutoClass编写可移植的代码预处理数据微调预训练模型通过脚本训练模型使用🤗Accelerate进行分布式训练使用🤗 PEFT加载和训练adapters分享您的模型使用LLMs进行生成生成策略
开发者指南
使用 🤗 Tokenizers 中的分词器使用多语言模型进行推理使用特定于模型的 API共享自定义模型聊天模型的模板导出为 ONNX与 GGUF 格式的互操作性与 Tiktoken 文件的互操作性社区资源
性能和可扩展性
贡献
概念指南
应用程序接口 (API)
You are viewing v5.8.0 version. A newer version v5.8.1 is available.
基于BERT进行的相关研究(BERTology)
当前,一个新兴的研究领域正致力于探索大规模 transformer 模型(如BERT)的内部工作机制,一些人称之为“BERTology”。以下是这个领域的一些典型示例:
- BERT Rediscovers the Classical NLP Pipeline by Ian Tenney, Dipanjan Das, Ellie Pavlick: https://huggingface.co/papers/1905.05950
- Are Sixteen Heads Really Better than One? by Paul Michel, Omer Levy, Graham Neubig: https://huggingface.co/papers/1905.10650
- What Does BERT Look At? An Analysis of BERT’s Attention by Kevin Clark, Urvashi Khandelwal, Omer Levy, Christopher D. Manning: https://huggingface.co/papers/1906.04341
- CAT-probing: A Metric-based Approach to Interpret How Pre-trained Models for Programming Language Attend Code Structure: https://huggingface.co/papers/2210.04633
为了助力这一新兴领域的发展,我们在BERT/GPT/GPT-2模型中增加了一些附加功能,方便人们访问其内部表示,这些功能主要借鉴了Paul Michel的杰出工作(https://huggingface.co/papers/1905.10650):
- 访问BERT/GPT/GPT-2的所有隐藏状态,
- 访问BERT/GPT/GPT-2每个注意力头的所有注意力权重,
- 检索注意力头的输出值和梯度,以便计算头的重要性得分并对头进行剪枝,详情可见论文:https://huggingface.co/papers/1905.10650。
为了帮助您理解和使用这些功能,我们添加了一个具体的示例脚本:bertology.py,该脚本可以对一个在 GLUE 数据集上预训练的模型进行信息提取与剪枝。
Update on GitHub