Языковые модели и мир будущего, или Путеводитель по ChatGPT. Руслан Акст

Языковые модели и мир будущего, или Путеводитель по ChatGPT - Руслан Акст


Скачать книгу
преобразовать его в набор чисел, например, [0.2, 0.5, 0.7].

      Этот набор чисел (или вектор) теперь представляет слово «кошка» для компьютера. Таким образом, вместо того чтобы работать с буквами и словами, модель работает с этими числовыми представлениями, что делает её обработку гораздо быстрее и эффективнее.

      Так, слово «собака» может быть [0.3, 0.6, 0.1], а «лев» – [0.9, 0.4, 0.8]. Каждое слово получает свой уникальный числовой «портрет», который помогает модели понимать и обрабатывать текст.

      Рекуррентные слои: Они используются для обработки последовательностей, таких как предложения или абзацы.

      Рекуррентные нейронные сети (RNN) и их вариации, такие как LSTM (Long Short-Term Memory) и GRU (Gated Recurrent Units), являются популярными выборами для этих слоев, так как они способны «помнить» информацию из предыдущих частей последовательности.

      Представьте, что вы читаете книгу и каждый раз, когда переворачиваете страницу, вы забываете, что произошло ранее. Было бы сложно понять историю, не так ли?

      Но в реальной жизни, когда вы читаете книгу, вы помните события предыдущих страниц и используете эту информацию для понимания текущей страницы.

      Рекуррентные нейронные сети (RNN) работают аналогичным образом. Когда они обрабатывают слова в предложении или абзаце, они «помнят» предыдущие слова и используют эту информацию для понимания текущего слова.

      Например, в предложении «Я люблю свою собаку, потому что она…» слово «она» относится к «собаке», и RNN это «помнит».

      Вариации RNN, такие как LSTM и GRU, улучшены таким образом, чтобы «помнить» информацию даже лучше и на более длительные периоды времени.

      Трансформеры: Это современная архитектура, которая использует механизмы внимания для обработки информации.

      Модели на основе трансформеров, такие как GPT (Generative Pre-trained Transformer) и BERT (Bidirectional Encoder Representations from Transformers), показали выдающиеся результаты в задачах языкового моделирования.

      Про эти две модели мы поговорим в следующих главах подробней, сравним их принцип действия и попробуем дать им свою оценку.

      Выходной слой: Обычно это полносвязный слой, который преобразует скрытые состояния модели в вероятности следующего слова или токена в последовательности.

      Представьте себе завод по производству конфет. На первых этапах производства ингредиенты смешиваются, обрабатываются и формируются в полуфабрикаты.

      Но перед тем, как конфеты упаковываются и отправляются в магазины, они проходят через последний этап – контрольное устройство, которое проверяет каждую конфету и определяет, подходит ли она для продажи.

      Выходной слой в нейронной сети работает аналогично этому контрольному устройству. После того как вся информация была обработана внутри модели, выходной слой преобразует её в конечный результат.

      В случае языковой модели, он определяет вероятности того, какое слово или токен будет следующим в последовательности.

      Так, если модель читает фразу «Я люблю есть…", выходной слой может определить, что слова «яблоки»,


Скачать книгу