3) Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq)
или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам
"от", "до", "ориентация" и сохранить в одном fasta файле
4) Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие
в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода,
и положить результат в один fasta файл
7) Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными
(на выходе только имена последовательностей и числа)
Задание 2. Проверить, сколько находок с E-value < 0.1 в среднем находит blastn для
случайной последовательности длины 100 в геноме бактерии Escherichia coli strain K12
Скрипт выглядит достаточно громоздко, так как использовались Popen и PIPE, наряду со стандартными параметрами
(то, что можно было бы одной строкой написать в command line "растягивается" на несколько при работе в python;
тем не менее, это позволяет использовать инструменты Python
В среднем получилось 0.13 находок с E-value < 0.1 для 100 последовательностей
У 13 последовательностей из 100 были обнаружены хиты с интересующим нас значением E-value
в количестве 1 или 2; тем не менее, при подсчете скрипт учитывает и другое количество находок
В процессе работы скрипта создается 100 файлов, которые удаляются после выдачи результата о среднем
количестве находок
В папке с файлами, ссылка на которую приведена выше, находятся файлы формата *.py - это "кусочки" общего
скрипта, которые в итоге были перенесены в файл script.py