Учебная страница курса биоинформатики,
год поступления 2013
Standalone BLAST
Как работать со standalone blast.
1. Поиск некодирующих РНК (misc_RNA), аннотированных в одном штамме, в геноме другого штамма
Получите файл со всеми misc_RNA штамма Bacillus_subtilis_168_uid57675. Для этого зайдите на FTP-сервер NCBI и скачайте нужный файл с расширением .frn, где лежат все аннотированные РНК этого штамма.
Посмотрите, что за РНК лежат в этом файле и как они называются. Чтобы получить файл с последовательностями только misc_RNA (без тРНК и рРНК), используйте команды infoseq (чтобы получить лист-файл), grep (чтобы отобрать из лист-файла нужные строки) и seqret.
Аналогично скачайте два файла с геномом штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967: в формате GenBank (расширение gbk) и в формате fasta (расширение fna).
Программой megablast найдите гомологи нужных РНК первого штамма в геноме второго. Результат — табличка в Excel, где для каждой misc_RNA указаны её номер, цепь (прямая или обратная относительно записи RefSeq) и координаты начала и конца лучшего найденного гомолога. Помогут опции -outfmt 6 или -outfmt 7 и -num_alignments 1.
2. Поиск гомологов РНК Bacillus subtilis в геноме другой бактерии
Скачайте геном любого штамма Bacillus cereus.
Найдите гомологи misc_RNA из первого задания в полученном геноме Bacillus cereus. Проведите поиск программами megablast, blastn с параметрами по умолчанию и blastn с параметрами: длина слова = 4, награда за совпадение = 1, штраф за несовпадение = –1.
Результат — табличка в Excel, где для каждой micsRNA указано количество гомологов c e-value < 0.001, найденных в каждом из трех вариантов поиcка. Поможет Excel-функция COUNTIF (СЧЁТЕСЛИ).
3. Поиск неправильно аннотированных генов программой blastx
Скачайте последовательности предсказанных белков штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967 (ищите файл с расширением .faa).
Программой blastx проведите поиск гомологов misc_RNA из предыдущих заданий в скачанных белковых последовательностях. Поставьте разумный порог на e-value.
- Укажите в отчете: для каких misc_RNA нашлись гомологи? Для каких misc_RNA гомологи — не просто "предполагаемые белки"?
4*. Дополнительно: схема генома в интересном месте
Составьте две карты генов в окрестности участка, который по-разному аннотирован в двух штаммах Bacillus subtilis. Возьмите за исходную точку одну из находок предыдущего упражнения. Образец карты:
3'--------------------------------[<= bbbb, 2000-3000]-------------------5' 5'---[=> aaaa, 8-1000]---------------------------------------------------3'
Одну карту нарисуйте для Bacillus_subtilis_168_uid57675, другую – для Bacillus_subtilis_spizizenii_TU_B_10_uid73967. На первой укажите misс_RNA, на второй – CDS, накладывающийся на гомологичный участок; на обеих картах должны присутствовать по одному-два соседних CDS в обе стороны. Попробуйте объяснить, почему misс_RNA выровнялся с белком.
5*. Дополнительно: зависимость времени работы blastn от длины затравки
На каком-нибудь примере выясните, как зависит время работы blastn от длины затравки. Испробуйте все длины от 4 до 16. Чтобы получить время работы программы, в Linux можно использовать команду time, которая пишется перед командной строкой, например:
time blastn -task blastn -query test.fasta -db testdb -out test.blastn