Введение в корпусную лингвистику. Михаил Копотев
возможности такого сочетания аффикса и основы: {чита- [гл]} {-л [[+гл]: муж., прош., ед.]}.
2б. Анализ, построенный на словаре окончаний, использует псевдосинтаксическую информацию. В словаре такого анализатора содержатся все окончания (с соответствующей морфологической информацией) и служебные слова, помогающие определить синтаксическую структуру. Такой синтаксической рамкой служит, например, цепочка «В – ом – е – ются – и», которая однозначно определяет почти все морфологические параметры слов для множества предложений типа «В большом доме смеются дети». Алгоритм применения состоит в выделении окончаний и поиске подходящей «синтаксической рамки», в которой может существовать окончание.
2 в. Словарь словоформ – способ, который состоит в том, что в словаре хранятся все словоформы всех слов с соответствующей морфологической информацией: например, стол [сущ., ед., им., муж.], столы [сущ., мн., им., муж.].
Понятно, что такой алгоритм требует бóльших ресурсов памяти, но в настоящее время это не является проблемой. Главный недостаток здесь – невозможность анализировать новые слова, не учтенные в словаре.
Многие современные морфологические анализаторы (теггеры) совмещают метод поиска по словарю словоформ (для знакомых слов) и другие методы (для незнакомых слов).
В русистике существует более или менее общепринятая классификация морфологических категорий. Она системно представлена в «Грамматическом словаре русского языка» (ГСРЯ) Андрея Анатольевича Зализняка (первое издание вышло в 1977 году). Страницы этого словаря могут удручающе подействовать на неподготовленного читателя:
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.