Полезные ссылки
Онлайн курс Журафского. Темы:
- Regexp, word tokenization, normalization, stemming, sentence segmentation
- Minimum editing distance
- n-grams, (evaluation, perplexity, generalization, zeroes, smoothing)
- spell-checking
- text classification
- sentiment analysis
- named entity recognition
- relation extraction
- POS tagging
- parsing, probablistic, lexicalized,
- dependency parsing
- information retrieval
- ranked information retrieval
- semantics
- question answering
- summarization
Перезтации курса Computational Linguistics Журафского & Мартина
link grammar (это про частичный разбор предложений, для каждого слова ищет партнёра по какой-то связи): офсайт, офсайт2, doc-index, doc-intro
HPSG: идеи, курс про HPSG, intro-слайды про HPSG
Задачки
для данного набора слов сделать выборку употреблений во всех формах [усложнение: псевдослучайную из N употреблений] Сниппет должен включать предложение, в котором употреблено слово, плюс M предложений справа/слева. Через границы абзаца переходить нельзя [усложнение: кроме случаев, когда дальше идет прямая речь]. Сниппет должен представлять собой валидный xml. Задачка должна делаться на корпусе, размеченном mystem-ом, который они уже должны были научиться делать.
— Ляшевская
Более абстрактная задачка. Даны маленький текст А и большой текст Б. Надо найти 10 самых длинных цепочек слов из текста А ("цитат"), присутствующих в тексте Б. Слова из каждой цепочки в тексте Б могут разрываться любым количеством других слов, но должны идти в том же порядке.
— Ляшевская
Я пока бросаю идеи Асе, чтобы она конкретизировала. Корпус - у нас есть СинТагРус и корпус Саши Антоновой (это синтаксические трибанки), и по теме правильно, чтобы что-то было сделано на их основе:
- тупое сравнение,
- порождение графического представления (деревьев),
- трансформация (например, надо вставить синтаксические нули, хотя это сложно),
- собрать n-грамы по деревьям.
— Ляшевская