Kodomo

Пользователь

Полезные ссылки

Задачки

для данного набора слов сделать выборку употреблений во всех формах [усложнение: псевдослучайную из N употреблений] Сниппет должен включать предложение, в котором употреблено слово, плюс M предложений справа/слева. Через границы абзаца переходить нельзя [усложнение: кроме случаев, когда дальше идет прямая речь]. Сниппет должен представлять собой валидный xml. Задачка должна делаться на корпусе, размеченном mystem-ом, который они уже должны были научиться делать.

— Ляшевская

Более абстрактная задачка. Даны маленький текст А и большой текст Б. Надо найти 10 самых длинных цепочек слов из текста А ("цитат"), присутствующих в тексте Б. Слова из каждой цепочки в тексте Б могут разрываться любым количеством других слов, но должны идти в том же порядке.

— Ляшевская

Я пока бросаю идеи Асе, чтобы она конкретизировала. Корпус - у нас есть СинТагРус и корпус Саши Антоновой (это синтаксические трибанки), и по теме правильно, чтобы что-то было сделано на их основе:

— Ляшевская