Учебный сайт Софроновой Алины | ||||||||||||||||||||||||||||||||
Поиск некодирующих РНК (misc_RNA), аннотированных в одном штамме, в геноме другого штамма         Некодирующие РНК будем искать в бактерии Bacillus subtilis 168 uid57675. Файл в формате .frn, где лежат аннотированные РНК этого штамма, можно просмотреть здесь.
Используя команду infoseq я получила лист файл с usa адресами последовательностей и описанием - strain1.txt.
Командой grep я отобрала строки, в которых встречается misc_RNA - grep1.txt.
И наконец, используя seqret и оставив во входном файле только usa адреса, я пойлучила файл со всеми нужными мне последовательностями некодирующих РНК этого штамма - strain1.fasta.
        Далее я скачала геном штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967 в формате GenBank - NC_016047.gbk, и в fasta-формате - NC_016047.fna.
Для поиска гомологов нужных РНК первого штамма в геноме второго воспользуемся локальным BLAST. В качестве базы данных был геном бактерии второго штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967. Командой я получила таблицу с основной информацией о полученных выравниваниях strain1.out. Обработав эту таблицу, я получила итоговый файл - table.xlsx.         Проделывая аналогичные операции, я нашла гомологов для РНК бактерии из 1 задания Bacillus subtilis 168 uid57675 в геноме штамма Bacillus cereus Q1 uid58529(использовался, как база данных). Для поиска гомологов я использовала 3 различных программы megablast и blastn со стандартными параметрами и blastn с параметрами -word_size 4 (длина затравки = 4), -penalty -1 (штраф за несовпадение = -1), -reward 1 (награда за совпадение =1). Результаты для megablast,blastn (стандартный),blastn (с измененными параметрами). В итоге я составила табличку в Excel, где для каждой micsRNA указано количество гомологов c e-value < 0.001, найденных в каждом из трех вариантов поиcка - table2.xlsx.         При помощи программы blastx я провела поиск гомологов misc RNA из предыдущих заданий в белковых последовательностях штамма Bacillus subtilis spizizenii TU B 10 uid73967. Blastx работает с нуклеотидными (которые перед поиском транслируются в шести рамках) последовательностями и ещет их в белковой базе данных (в данном случае в белковых последовательностях штамма Bacillus subtilis spizizenii TU B 10 uid73967). При поиске я поставила порог на e-value, равный 0,001. Полученный файл - strain3.out. Обработав результаты, я получила данную таблицу - table3.xlsx. В итоге только для misc RNA под номерами 1 и 46 нашлись не "предпологаемые белки", а серил-тРНК синтаза и аспартокиназа соответственно.         Для выяснения зависимости работы blastn я проделала работу точно такую же, как во втором задании. Т.е. я находила гомологов для РНК бактерии из 1 задания Bacillus subtilis 168 uid57675 в геноме штамма Bacillus cereus Q1 uid58529(использовался, как база данных). Для того чтобы получить время работы программы достаточно использовать команду time: В итоге я получила зависимость времени от длины затравки (Таблица.1 и Рис.1).
В итоге, чем длиннее затравка, тем он ищет более близкие гомологи и тратит на это меньше времени, чем если бы искал по более короткой затравке.
Вернуться к 3 семестру |
© Алина Софронова, 2014 Дата последнего изменения: 20.10.2014 |