Код бестселлера. Мэттью Джокерс

Код бестселлера - Мэттью Джокерс


Скачать книгу
роман (или эти романы, если говорить о всей трилогии) – чрезвычайно редкий пример эротического произведения, попавшего в бестселлеры. В следующей главе мы объясним причины этого успеха – и окажется, что они не имеют отношения к собственно сексу.

      Вопреки видимости (учитывая навязчивое присутствие темы секса на ТВ, в кино и СМИ) читающая публика США в последние тридцать лет явно предпочитает другие темы. Сочетание тем, характерное для современного бестселлера, дает основания предположить, что современный читатель ждет от книги чего-то большего, нежели потакание самым низким инстинктам.

      Но откуда мы это знаем?

      В 1957 году лингвист Джон Руперт Фёрс сказал: лучший способ понять слово – это познакомиться с его соседями. Проще говоря, значение слова раскрывается через контекст, в котором оно употреблено. Слова «секс», «наркотики» и «рок-н-ролл», фигурирующие в названии этого раздела, можно было бы понять соответственно как сокращение слова «секстет», «обезболивающие средства» и «акробатические танцы» – но вы знаете, что в данном контексте имелось в виду не это, именно потому, что каждое из слов придает определенный оттенок смысла своим соседям. Возьмем другой пример – слово «три». Оно может означать числительное, а может – повелительное наклонение глагола[48]. Чтобы различать эти два случая, компьютер нуждается в специальном обучении – по принципу, сформулированному Фёрсом семьдесят лет назад. Компьютер должен рассматривать каждое слово в контексте окружающих его слов в ближайших предложениях. Алгоритмический метод для формализации такого рассмотрения слов в контексте в больших объемах называется моделированием тем[49].

      Математический аппарат, задействованный в моделировании тем, весьма сложен, но его общие принципы достаточно просты. Каждый роман представляет собой комбинацию тем, а эти темы выражаются словами (в первую очередь – существительными). Например, в книге о финансах, скорее всего, встретятся слова «банки», «проценты», «деньги», «фидуциарный». В другой книге, посвященной домашнему консервированию, мы увидим слова «банки», «крышка», «огурцы» и «укроп». Слово «банки» попадается в обеих книгах, но, рассмотрев другие существительные, стоящие рядом с каждым вхождением этого слова, компьютерная модель регистрирует повторяющиеся закономерности и может понять – подобно читателю-человеку, – что в разных местах слово «банки» имеет разные значения[50]. Очевидно, что слово «банки» само по себе еще не тема, но, когда оно постоянно попадается рядом с другими словами, которые (как нам уже известно) связаны с финансами, мы понимаем, что компьютер обнаружил в книге тему денег. Аналогично, если «банки» окружены «огурцами» и «пряностями», мы знаем: компьютер обнаружил тему домашних заготовок. При написании этой книги мы проводили моделирование тем, и одна из тем, обнаруженных компьютером, выглядела так, как показано на рис. 1.

      Рис. 1

      Эта тема посвящена барам – не единицам


Скачать книгу

<p>48</p>

В отдельных случаях примеры адаптированы для русского читателя. (Примеч. ред.)

<p>49</p>

Мы использовали латентное размещение Дирихле – алгоритм моделирования тем, предложенный Дэвидом Блеем, сотрудником Колумбийского университета. Слово «латентный» в названии метода Блея отражает то, что некоторые темы могут присутствовать в тексте в неявном виде. (Примеч. авторов.)

<p>50</p>

В 8-й главе своей книги «Macroanalysis: Digital Methods and Literary History» (UIUC Press, 2013) Мэтт более подробно описывает алгоритм моделирования тем. В 13-й главе своей книги «Text Analysis with R for Students of Literature» (Springer, 2014) Мэтт объясняет читателям, как проводить моделирование тем на алгоритмическом языке R (и как создавать словесные облака, которые вы увидите на этих страницах). Мэтт также опубликовал несколько объяснений для неспециалистов у себя в блоге (www.matthewjockers.org), в том числе: «The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors» (29.09.2011) и «“Secret” Recipe for Topic Modeling Themes» (12.04.2013). (Примеч. авторов.)