Первый уровень по моей классификации.

Конечно этим уровням можно было бы давать более сложные названия, типа уровень алгоритмов делающий то-то и то-то. Но каждый раз так писать это длинно и путающе. А потому просто цифрами.

Как упоминалось ранее, первый уровень, это сделать выделение однотипных дистанций между исходными значениями и прогнозируемыми:

  = красная машина

  = красную машину

  = красные машины

В данном случае никаких проблем нет запомнить все варианты окончаний для одного слова. Но существительных много, и многие будут встречаться в первый раз в той или иной комбинации. Если знать заранее, что тот или иной кусочек является соответствующим существительным, то и окончания можно будет применять, даже если комбинация встречается впервые.

Для нулевого уровня использовалось дерево паттернов, в котором каждый узел был одним символом. Для этого уровня, нужно использовать такое же дерево, но некоторые узлы в нем будут заменены на символ группы, и статистика будет накапливаться перешагивая через эту дистанцию.

  = красная [СимволГруппы]а

В остальном, принцип здесь остается прежним - накапливаем статистику, считаем вероятности. Весь вопрос лишь в том, как определить, что тот или иной кусочек принадлежит которой из групп. Для этого нужно сначала удостовериться, что проверяемый кусочек принадлежит группе. Для этого, этот паттерн должен сначала встретиться хотя бы в двух из трех указанных вариантов, скажем он встретился в вариантах ая-а, ую-у. А для варианта ые-ы он еще не встречался, но когда он встретится, то мы будем заранее уже знать, что окончание будет ы.

Пока рассматриваются зависимости уровня окончаний, то можно добавить, что не только само окончание при этом зависимо, но и скажем последующий пробел. Зависимости, где зависимыми значениями являются слова, могут выглядеть так же, только у них не два-три отображения, а сотни и тысячи. Но принцип тот же, а дистанцией в простых случаях может быть либо мелкая частица типа окончания, либо целые слова. И статистику для них нужно набрать побольше, что бы удостовериться, в подобии дистанций.

Другой вопрос, как начинать такие группы. Пока еще группа не начата, и в ней нет ни одного паттерна.

В этом уровне деталей и нюансов гораздо больше, чем здесь я описал. Этот уровень у меня на половину сделан, и если будет кому-либо будет интересно обсуждение предмета разговора, то я могу это продемонстрировать.

Phone:

+7 (961) 801-10-34

E-mail (preferably):

v-telnov@yandex.ru

  • Facebook