Standalone BLAST |
||||||||||||||||||||||||||||||||||||||||
|
Поиск некодирующих РНК (misc_RNA), аннотированных в одном штамме, в геноме другого штаммаДля выполнения этого задания из списка всех РНК Bacillus subtilis 168 uid57675 был получен файл, содержащий последовательности со всеми misc_RNA. Из frn-файла, содержащего все аннотированные РНК этого штамма, был получен лист-файл командой infoseq. При помощи команды Grep был получен файл, содержащий только адреса последовательностей misc_RNA. С помощью комнады seqret был получен fasta-файл, содержащий последовательности misc-РНК. Для Bacillus_subtilis_spizizenii_TU_B_10_uid73967 были скачены файлы с его геномом: gbk- и fasta-файл. Используя локальный BLAST и геном второго штамма как базу данных, был произведен плиск гомологов данных РНК. С помощью комнады blastn (blastn -task megablast -query 1.fasta -db NC_016047.fna -out 1.out -outfmt 7 -num_alignments 1) был получен файл с информацией о всех выравниваниях. На основе этого файла была составлена таблица Excel, где для каждой misc_RNA указаны её номер, цепь (прямая или обратная относительно записи RefSeq) и координаты начала и конца лучшего найденного гомолога. Поиск гомологов РНК Bacillus subtilis в геноме другой бактерииВ этом задании в качестве безы данных для blast использовался геном бактерии Bacillus cereus Q1, в качестве исходных данных тот же самый штамм Bacillus_subtilis. Поиск проводился с помощью трёх программ и были получены три выходных файла: megablast, стандартный blastn и blastn с параметрами (-word_size 4, -penalty -1, -reward 1). На основе этих результатов была составлена таблица Excel, в которой для каждого алгоритма поиска было указано количество найденных гомологов с e-value < 0.001. Поиск неправильно аннотированных генов программой blastxЗадача заключалась в поиске гомологов misc_RNA из предыдущих заданий в скачанных белковых последовательностях с помощью программы blastx. В качестве базы данных использовался файл с последовательностями предсказанных белков штамма Bacillus subtilis spizizenii TU B 10 uid73967. Для осуществления поиска был определён e-value меньше 0,001 и составлена команда: blastx -query miscRNA.fasta -db NC_016047.faa -out blastx.out -evalue 0.001 -outfmt 7 -num_alignments 1. Как видно из выходного файла и таблицы, гомологи были найдены для РНК под номерами 1, 25, 41, 46, 53, 57, 58, 61, 62. 1-ый и 46-ой белки были реальными, а не гипотетическими (серил-тРНК синтаза - 1 и аспартокиназа - 46). Зависимость времени работы blastn от длины затравкиЗависимость времени работы blastn от длины затравки проверяется командой time blastn -task blastn -query 1.fasta -db NC_011969.fna -out time.blastn -word_size x, где х меняется от 4 до 16. Результаты приведены в таблице 1.
Таблица 1. Зависимость времени поиска от длины слова
При увеличении длины слова уменьшается время поиска. Возможно, это связано с тем, что ужесточаются рамки поиска и, следовательно, меньше времени требуется на перебор исходной и сравниваемой последовательности. |
|||||||||||||||||||||||||||||||||||||||
© Маслова Валентина, 2014 Последнее изменение: 06.11.2014 |