Отчёт по практикуму 9

EMBOSS

В практикуме 9 много упражнений и только одно задание, результат которого нужно описать в отчёте. Упражнения освежают в памяти известные команды EMBOSS и добавляют в арсенал новые, а задание требует применения накопленного опыта на конкретном кейсе.

Сравнение наблюдаемых частот динуклеотидов с ожидаемыми

Для решения задачи я написал два скрипта — на bash и на python (главный — тот, что на bash). Недостаток — создаваемые временные файлы mononucs.wordcount, dinucs.wordcount (ускоряют работу, сокращая число вызовов wordcount, и при этом содержат необходимые для grep переводы строк), nucfreqs.txt, dinucfreqs.txt (для удобной передачи массивов данных второму скрипту).

Файлы сценариев:

Для теста на реальных данных был использован GenBank (full) файл chromosome.gb. (Тот же, что в файлах к упражнениям на kodomo, но full).

Длина последовательности подсчитывается при помощи infoseq, встречаемости нуклеотидов и динуклеотидов — при помощи wordcount. Далее, для работы с частотой, подключается арифметика. Отдельно пришлось оговорить случаи, когда какие-то (ди)нуклеотиды не встречались. Результат работы программы — выведенная в консоль строка:

The largest difference from the expected frequency value is observed for the dinucleotide XY.

Здесь XY — тот динуклеотид, частота которого больше всего отличалась от ожидаемой. (В примере оказалось XY = GC).

Получилось написать сценарии, выполняющие указанную задачу. Можно подумать над их совершенствованием: нельзя ли аккуратнее хранить выдачу wordcount или передавать данные во второй скрипт?