Меню
Главная
Случайная статья
Настройки
|
Generative pre-trained transformer или GPT (рус. Генеративный предобученный трансформер) — это тип нейронных языковых моделей, которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.
Языковые модели GPT от OpenAI
11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный предобученный трансформер (GPT)[1]. До этого момента лучшие нейронные модели обработки естественного языка в основном использовали обучение с учителем на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей[2]. Кроме того, многие языки (такие как суахили или гаитянский креольский) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках[2]. Предложенный OpenAI подход слабонадзорного ("полунадзорного")[англ.] обучения на основе модели GPT включает два этапа:
- несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путём обучения модели языковым моделированием
- собственное дискриминативное (различительное)[англ.] «дообучающее» обучение, на котором эти параметры адаптируются к конкретной задаче.
Версии GPT от OpenAI
|
Использование
|
Архитектура
|
Количество параметров
|
Тренировочные данные
|
Дата выпуска
|
GPT-1[англ.]
|
Общее
|
12-уровневый декодер-трансформер с 12 головками (без кодировщика), за которым следует линейный софтмакс.
|
117 миллионов
|
BookCorpus: 4,5 ГБ текста из 7000 неизданных книг разных жанров.[3]
|
11 июня 2018[4]
|
GPT-2[англ.]
|
Общее
|
GPT-1, но с изменённой нормализацией[англ.].
|
1,5 миллиарда (1 273 000 %)
|
WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц, за которые проголосовали на Reddit.
|
14 февраля 2019
|
GPT-3
|
Общее
|
GPT-2, но с изменениями для возможности масштабирования в большем объёме.
|
175 миллиардов ( |
570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных Common Crawl, WebText, английской Википедии, а также BookCorpus.
|
11 июня 2020[5]
|
InstructGPT (GPT-3.5)
|
Разговор
|
GPT-3, тонко настроенный[англ.] для выполнения инструкций с использованием обратной связи с человеком.
|
175 миллиардов[6]
|
Неизвестно
|
4 марта 2022
|
ChatGPT
|
Диалог
|
Использует GPT-3.5 и тонко настроенн[англ.] (подход к трансферному обучению[англ.]) как с обучением с учителем, так и с RLHF (обучение с подкреплением на основе отзывов людей).
|
Неизвестно
|
Неизвестно
|
30 ноября 2022
|
GPT-4
|
Общее
|
Также обучен на основе предсказания текста и основан на обучении с подкреплением. Принимает как текст, так и изображения. Дополнительные подробности не разглашаются.[7]
|
Неизвестно
|
Неизвестно
|
14 марта 2023
|
Другие (производные) модели GPT
После того, как OpenAI выпустила свою модель GPT-3, EleutherAI выпустила ряд больших языковых моделей (LLM) с открытым исходным кодом, и её модель GPT-J привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.
Примечания
- Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya; Radford, Alec. Improving Language Understanding by Generative Pre-Training (неопр.) 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года.
- 1 2 Tsvetkov, Yulia. Opportunities and Challenges in Working with Low-Resource Languages (неопр.). Carnegie Mellon University (22 июня 2017). Дата обращения: 23 января 2021. Архивировано 31 марта 2020 года.
- Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv:1506.06724. Архивировано 5 февраля 2023. Дата обращения: 7 февраля 2023.
- Salimans, Tim; Narasimhan, Karthik; Radford, Alec; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (неопр.) 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года.
- Language models are few-shot learners (амер. англ.). openai.com. Дата обращения: 21 марта 2023. Архивировано 21 марта 2023 года.
-
- OpenAI. GPT-4 Technical Report (неопр.) (2023). Дата обращения: 16 марта 2023. Архивировано 14 марта 2023 года.
-
- Matthias Bastian. BioGPT is a Microsoft language model trained for biomedical tasks (неопр.). The Decoder (29 января 2023). Дата обращения: 7 февраля 2023. Архивировано 7 февраля 2023 года.
|
|