Учебный сайт Ивана Федорова


Практикум 8

Упр.1.

Дельта-субъединица АТФ-синтазы Drosophila melanogaster имеет идентификатор NP_001259397.1 (FASTA-файл). Идентификатор нуклеотидной последовательности, к которой относится ее ген - NC_004354 (FASTA-файл). Окрестность гена.

Упр.2.

В этом упражнении требовалось с помощью разных вариантов BLAST провести выравнивания гена дельта-субъединицы АТФ-синтазы D. melanogaster с генами достаточно далеких от нее эукариотов. D. melanogaster относится к первичноротым животным, поэтому для выполнения данного задания я выбрал семейство вторичноротых Felidae (кошачьи). Была использована база данных RefSeq, в ней нашлось 15 геномов подходящих кошачьих. Поиск был проведен с помощью blastn (длина слова 11) и tblastn (длина слова 5), в обоих случаях выбор алгоритма был связан с тем, что другие варианты (megablast и tblastx) не дали результатов.

Алгоритм blastn обнаружил 21 последовательность, tblastn - 15. Как видно из приведенных таблиц, найденные последовательности в обоих случаях разные. У всех 15 последовательностей, найденных tblastn, e-value не больше 1e-10; у blastn этот показатель выше - только у 5 находок он меньше 0,01. Кроме того, у tblastn покрытие последовательности (query cover) во всех 15 случаях не менее 33%, а у blastn - не более 6%. Таким образом, алгоритм tblastn выдает больше значимых находок.

Упр.3.

Команда для индексирования геномных последовательностей D. melanogaster:

makeblastdb -in db.fasta -dbtype nucl

Команды для локального поиска BLAST для каждой рРНК по полученной базе данных:

blastn -task blastn -query query1.fasta -db db.fasta

blastn -task blastn -query query2.fasta -db db.fasta

Поиск проводился по последовательностям 16S рРНК и 23S рРНК E. coli.

Я использовал алгоритм blastn, потому что megablast не дал результатов, а dc-megablast - дал меньше результатов (ни одного выравнивания для первой последовательности и 5 выравниваний для второй). Использовались параметры по умолчанию (e-value 10, word size 11).

Для первой последовательности было найдено 11 гомологов, для второй - 21 гомолог. Всего blast выдал 12 находок для первой и 24 - для второй. Для первой последовательности только у 7 находок максимальный e-value был меньше 0.01, им соответствовало 11 отдельных выравниваний. Для второй последовательности находок с достаточно низким e-value было 11, им соответствовало 28 выравниваний, однако, судя по их координатам, в 5 находках одно реальное выравнивание было распознано как два, а в одной - как три отдельных. Гомологи первой последовательности - это участки генов 18S рРНК. Гомологи второй последовательности - участки генов 28S рРНК. Таким образом, эти последовательности у Дрозофилы кодируют рРНК, входящие в состав 80S-рибосом.

Число гомологов указано неверно; судя по всему, Вы принимаете за их число тот список, который указан в выдаче BLAST после слов "Sequences producing significant alignments:" Нужно смотреть на координаты находок (в query и subject) и e-value