Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Эрец Эйден
позиции. Слово step с 26 случаями употреблений заняло в рейтинге Ципфа тысячное место. А чтобы оказаться на десятитысячной позиции, слову indisputable («бесспорный») было достаточно появиться в тексте всего два раза.
Изучая получившийся список, Ципф заметил кое-что любопытное – а именно обратную связь между позицией слова и частотой его использования. Если номер позиции слова был в 10 раз выше – пятисотое место вместо пятидесятого, – то оно встречалось в 10 раз реже. Таким образом his («его»), оказавшееся на восьмом месте с 3326 упоминаниями, встречается в 10 раз чаще, чем слово eyes («глаза») (восьмидесятая позиция, 330 случаев употреблений). Иными словами, можно было сказать, что редких слов гораздо больше, чем можно было ожидать. В «Улиссе» лишь 100 слов используется более 2653 раз. Однако в книге есть сто слов, использующихся более 265 раз, тысяча слов, использующихся более 26 раз, и так далее.
Кроме того, как вскоре обнаружил Ципф, это было характерно не только для слов в «Улиссе» Джойса. Такая же закономерность проявлялась в словах из газет, текстов, написанных на китайском языке и латыни, и практически во всех остальных информационных источниках, к которым он обращался. Это открытие, называемое в наши дни законом Ципфа, оказалось универсальным организующим принципом для всех известных языков[52].
Мир глазами Ципфа
До Ципфа ученые полагали, что большинство вещей, поддающихся измерению, ведут себя подобно человеческому росту.
Рост человека не очень сильно варьируется. Рост 90% жителей США составляет от 155 см до 185 см. Разумеется, рост некоторых особенно высоких баскетболистов достигает 220 см и выше, а рост самого низкого взрослого человека в мире составляет менее 62 см. Однако подобные случаи встречаются крайне редко. Но даже с учетом этих крайностей самые высокие люди всего в 4–5 раз выше самых низкорослых[53]. У математиков имеется особый термин для описания распределения такого рода, при котором значения настолько тесно группируются вокруг среднего значения. Подобное часто встречающееся распределение называется «нормальным». До Ципфа люди считали, что мы живем в нормальном мире, где нормальным оказывалось бы все окружающее.
Однако, как мы уже видели, мир слов далек от нормального – распределение в нем соответствует вполне определенному, но кажущемуся на первый взгляд странным математическому принципу. В наши дни ученые называют такое поведение степенными законами[54]. Удивительно, но как только Ципф обнаружил свой первый степенной закон в языке, то начал тут же находить и другие его проявления.
Например, Ципф обнаружил, что степенным законам следуют показатели богатства и доходов. Если бы ваш рост был пропорционален величине вашего банковского счета, а среднее американское домохозяйство имело рост около 170 см, то рост Билла Гейтса оказался бы больше, чем расстояние от Земли до Луны[55]. Величина статей в Encyclopedia Britannica также следует степенному закону, как и тираж газет. Ученые, следовавшие по стопам Ципфа, обнаружили тысячи
52
Было бы большим упущением, если бы мы не отметили, что закон Ципфа не имеет прямого отношения к Ципфу и не является законом в строгом смысле слова, причем по нескольким причинам. Прежде всего он верен лишь отчасти; при ближайшем рассмотрении в большинстве языков имеются систематические отклонения от чисто ципфовской закономерности. Во-вторых, несмотря на множество (конфликтующих между собой) теоретических построений, не до конца понятно, применим ли закон Ципфа для всех языков или только к отдельным языкам. Закон Ципфа, вероятнее всего, представляет собой в высшей степени универсальную – и достаточно загадочную – эмпирическую закономерность. Кроме всего прочего, Ципф его не открывал. Насколько нам известно, первым человеком, сформулировавшим его основополагающий математический принцип, был французский стенограф по имени Жан-Батист Эсту, опубликовавший результаты своих исследований по данному вопросу в 1912 году в своей популярной книге по скорописи (дисциплине, в которой ципфовские закономерности нашли немедленное практическое применение). Классическое представление закона Ципфа как графика распределения частотности на шкале с двумя осями было впервые изложено Эдвардом Кондоном в научной работе, опубликованной в 1928 году в журнале
53
См. Fryar C. D., Gu Q., Ogden C. L. Anthropometric Reference Data for Children and Adults: United States, 2007–2010 // Vital Health Statistics 11, no. 252 (2012), доступно в сети Интернет: http://goo.gl/uEuiV.
54
Если быть более точным, то степенным законом называется закономерность, при которой одна величина пропорциональна другой величине и растет по экспоненте (степенной константе). Закон Ципфа является степенным законом, величины в котором – это количество и частотность, экспонента равна 1. Если величины составляют сеть, то такая сеть называется «безмасштабной». См. Strogatz Steven H. Exploring Complex Networks // Nature 410, no. 6825 (2001). P. 268–276. Доступно в сети Интернет: http://goo.gl/gO6Eb4. Когда величины представляют собой геометрическую структуру, а экспонента не равна целому числу, для такой структуры есть специальное название: фрактал. См. Mandelbrot Benoit. The Fractal Geometry of Nature. San Francisco: W. H. Freeman, 1985. Хотя Ципф был одним из первых, кто выявил степенную закономерность в частотном распределении слов, еще ранее исследователи находили степенные последовательности в других областях. Самым заметным было наблюдение Вильфредо Парето, согласно которому 80% земли в Италии принадлежало 20% населения. Это было первое правило 80/20 из целого ряда подобных. Такой перекос на языке математики называется степенным законом.
Многие из степенных законов были впервые упомянуты Ципфом в его книге 1949 года, в которой он также приводит наблюдения других исследователей. Из самых последних обзоров см. Clauset Aaron, Shalizi Cosma Rohilla, Newman M. E. J. Power-Law Distributions in Empirical Data // SIAM Review 51, no. 4 (2009). P. 661–703. Доступно в сети Интернет: http://goo.gl/6PLJFF; Schroeder Manfred. Fractals, Chaos, Power Laws: Minutes from an Infinite Paradise. New York: W. H. Freeman, 1991. Подобные закономерности встречаются столь часто, что можно привести великое множество примеров в самых узких областях науки. См., например, Rodríguez-Iturbe Ignacio, Rinaldo Andrea. Fractal River Basins: Chance and Self-Organization. Cambridge, England: Cambridge University Press, 2001.
55
Согласно данным переписи 2010 года, средний капитал американского домохозяйства (за вычетом недвижимости) составлял 15 000 долларов. В марте 2010 г. журнал