Kodomo

Пользователь

ДЗ №7

  1. Создайте папочку hw7 и выполняйте задание в ней.
  2. ambiguity.py. Сохраните страницу википедии про молоко. С помощью re удалите скрипты, стили, тэги, лишние пробелы – сделайте из страницы текстовый файл. Пропустите текст через mystem -l -n -e utf8. Посчитайте в выдаче mystem: число слов без |, число слов с | (то есть слов, для которых по форме слова можно сделать несколько равноценных гипотезы о том, какой могла быть начальная форма). Выведите эти два числа и их частное на экран. Выведите список неоднозначных слов и посмотрите на него.

  3. search.py. Прочитайте внимательно документацию к mystem. Кроме куцего mystem -h, есть более внятная документация на сайте mystem. Напишите программу, которая с помощью input спрашивает слово и находит все предложения, содержащие это слово в любой форме. Сколько раз в тексте встретилось слово "быть"?

  4. diversity.py. Напишите программу, которая читает через input() слово, приводит его к начальной форме, и выдаёт список слов, которые встретились в тексте, которые приводятся к той же начальной форме.