Учебный сайт Софроновой Алины
Standalone BLAST

Поиск некодирующих РНК (misc_RNA), аннотированных в одном штамме, в геноме другого штамма

        Некодирующие РНК будем искать в бактерии Bacillus subtilis 168 uid57675. Файл в формате .frn, где лежат аннотированные РНК этого штамма, можно просмотреть здесь. Используя команду infoseq я получила лист файл с usa адресами последовательностей и описанием - strain1.txt. Командой grep я отобрала строки, в которых встречается misc_RNA - grep1.txt. И наконец, используя seqret и оставив во входном файле только usa адреса, я пойлучила файл со всеми нужными мне последовательностями некодирующих РНК этого штамма - strain1.fasta.

        Далее я скачала геном штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967 в формате GenBank - NC_016047.gbk, и в fasta-формате - NC_016047.fna. Для поиска гомологов нужных РНК первого штамма в геноме второго воспользуемся локальным BLAST. В качестве базы данных был геном бактерии второго штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967. Командой

blastn -task megablast -query strain1.fasta -db NC_016047.fna -out strain1.out -outfmt 7 -num_alignments 1

я получила таблицу с основной информацией о полученных выравниваниях strain1.out. Обработав эту таблицу, я получила итоговый файл - table.xlsx.

Поиск гомологов РНК Bacillus subtilis в геноме другой бактерии

        Проделывая аналогичные операции, я нашла гомологов для РНК бактерии из 1 задания Bacillus subtilis 168 uid57675 в геноме штамма Bacillus cereus Q1 uid58529(использовался, как база данных). Для поиска гомологов я использовала 3 различных программы megablast и blastn со стандартными параметрами и blastn с параметрами -word_size 4 (длина затравки = 4), -penalty -1 (штраф за несовпадение = -1), -reward 1 (награда за совпадение =1). Результаты для megablast,blastn (стандартный),blastn (с измененными параметрами). В итоге я составила табличку в Excel, где для каждой micsRNA указано количество гомологов c e-value < 0.001, найденных в каждом из трех вариантов поиcка - table2.xlsx.

Поиск неправильно аннотированных генов программой blastx

        При помощи программы blastx я провела поиск гомологов misc RNA из предыдущих заданий в белковых последовательностях штамма Bacillus subtilis spizizenii TU B 10 uid73967. Blastx работает с нуклеотидными (которые перед поиском транслируются в шести рамках) последовательностями и ещет их в белковой базе данных (в данном случае в белковых последовательностях штамма Bacillus subtilis spizizenii TU B 10 uid73967). При поиске я поставила порог на e-value, равный 0,001. Полученный файл - strain3.out. Обработав результаты, я получила данную таблицу - table3.xlsx. В итоге только для misc RNA под номерами 1 и 46 нашлись не "предпологаемые белки", а серил-тРНК синтаза и аспартокиназа соответственно.

Зависимость времени работы blastn от длины затравки

        Для выяснения зависимости работы blastn я проделала работу точно такую же, как во втором задании. Т.е. я находила гомологов для РНК бактерии из 1 задания Bacillus subtilis 168 uid57675 в геноме штамма Bacillus cereus Q1 uid58529(использовался, как база данных). Для того чтобы получить время работы программы достаточно использовать команду time:

time blastn -task blastn -query strain1.fasta -db NC_011969.fna -word_size X -num_alignments 1, где X принимает значения от 4 до 16.

В итоге я получила зависимость времени от длины затравки (Таблица.1 и Рис.1).

Длина затравки Время в сек
4 78,737
5 20,408
6 5,854
7 2,186
8 1,233
9 1,059
10 0,84
11 0,784
12 0,75
13 0,733
14 0,715
15 0,666
16 0,619
Таблица 1 и Рис.1. Зависимость времени (в секундах) от длины затравки.

В итоге, чем длиннее затравка, тем он ищет более близкие гомологи и тратит на это меньше времени, чем если бы искал по более короткой затравке.



Вернуться к 3 семестру

© Алина Софронова, 2014
Дата последнего изменения: 20.10.2014