Упр.1.
Дельта-субъединица АТФ-синтазы Drosophila melanogaster имеет идентификатор NP_001259397.1 (FASTA-файл). Идентификатор нуклеотидной последовательности, к которой относится ее ген - NC_004354 (FASTA-файл). Окрестность гена.
Упр.2.
В этом упражнении требовалось с помощью разных вариантов BLAST провести выравнивания гена дельта-субъединицы АТФ-синтазы D. melanogaster с генами достаточно далеких от нее эукариотов. D. melanogaster относится к первичноротым животным, поэтому для выполнения данного задания я выбрал семейство вторичноротых Felidae (кошачьи). Была использована база данных RefSeq, в ней нашлось 15 геномов подходящих кошачьих. Поиск был проведен с помощью blastn (длина слова 11) и tblastn (длина слова 5), в обоих случаях выбор алгоритма был связан с тем, что другие варианты (megablast и tblastx) не дали результатов.
Алгоритм blastn обнаружил 21 последовательность, tblastn - 15. Как видно из приведенных таблиц, найденные последовательности в обоих случаях разные. У всех 15 последовательностей, найденных tblastn, e-value не больше 1e-10; у blastn этот показатель выше - только у 5 находок он меньше 0,01. Кроме того, у tblastn покрытие последовательности (query cover) во всех 15 случаях не менее 33%, а у blastn - не более 6%. Таким образом, алгоритм tblastn выдает больше значимых находок.
Упр.3.
Команда для индексирования геномных последовательностей D. melanogaster:
makeblastdb -in db.fasta -dbtype nucl
Команды для локального поиска BLAST для каждой рРНК по полученной базе данных:
blastn -task blastn -query query1.fasta -db db.fasta
blastn -task blastn -query query2.fasta -db db.fasta
Поиск проводился по последовательностям 16S рРНК и 23S рРНК E. coli.
Я использовал алгоритм blastn, потому что megablast не дал результатов, а dc-megablast - дал меньше результатов (ни одного выравнивания для первой последовательности и 5 выравниваний для второй). Использовались параметры по умолчанию (e-value 10, word size 11).
Для первой последовательности было найдено 11 гомологов, для второй - 21 гомолог. Всего blast выдал 12 находок для первой и 24 - для второй. Для первой последовательности только у 7 находок максимальный e-value был меньше 0.01, им соответствовало 11 отдельных выравниваний. Для второй последовательности находок с достаточно низким e-value было 11, им соответствовало 28 выравниваний, однако, судя по их координатам, в 5 находках одно реальное выравнивание было распознано как два, а в одной - как три отдельных. Гомологи первой последовательности - это участки генов 18S рРНК. Гомологи второй последовательности - участки генов 28S рРНК. Таким образом, эти последовательности у Дрозофилы кодируют рРНК, входящие в состав 80S-рибосом.