Что дальше?...

А дальше, я делаю эту программу. Долго и муторно, продумываю как это все должно считаться, прописываю правила, всякие структуры, графы, и прочее для чего и названий не знаю.

Для примера, вот отладочный лог из этой программы:

Screenshot from 2021-05-22 15-53-52.png

Здесь отображены находимые простые правила зависимостей в тексте, окончания и пр.. После указания сочетаниях букв использованных для отбора ситуации отображается сам прогноз и вероятность прогноза. Т.е. при встречании в тексте сочетания "ми" ... "ам" (первая строка) прогноз следующей буквы за "ам" будет "и" с вероятностью 0.915. (здесь отображены не все условия, которые учитывались при отборе ситуаций). И встретилась такая ситуация 1429 раз в тестовых данных, которые в этом случае около 5Мб текста.

Данный расчет выполнился за минуту, т.е. с нулевой ситуации не знания ничего о русском языке, программа начала находить зависимости окончаний. При этом это на древнем i5 и считалось в один поток. Думаю на компе посвежей это можно сделать секунд за 5-10. Что для человека малореально, что бы он начал понимать что-либо о незнакомом языке в первую же минуту.  Ссылка на видео с расчетом. (там предварительно разная индексация, а потом быстренько начинает считать).

Дотошный читатель заметит, что человек определяет окончания с вероятностью близкой к 100%. Но на самом деле это не совсем верно. Он определяет, если знает полностью контекст. А если еще почитать как пишут на форумах, то даже для этого случая возникают сомнения. Здесь же найден максимум исходя из того ограниченного спектра анализов, которые были заложены в эту версию программы.

Так же возможно будет критика со стороны знатоков GPT-3, типа GPT-3 прогнозирует это гораздо лучше. Во первых не на таких объемах, и не за такое время. В моем случае это выполняется на 5Мб тестовых данных. На GPT-3 что-либо существенно на 5Мб тестовых данных не получить с такой точностью. Так же нейросетка не говорит конкретные цифры с какой вероятностью она уверена в ответе, и с какой погрешностью. Есть еще и множество других нюансов. В общем нейросетки это несколько для других случаев.

Для английских текстов, конечно же меньше видна зависимость окончаний, т.к. структура языка таких содержит существенно меньше. Видны зависимости от местоимений, и разные другие.

Screenshot from 2021-06-03 12-02-04.png