Практикум 8. Нуклеотидный BLAST

Задание 1. Поиск в геноме эукариота гена, кодирующего δ-субъединицу АТФ-синтазы

С помощью текстового поиска в файле с последовательностями белков гепарда был найден белок, аннотированный как δ-субъединица АТФ-синтазы. Последовательность этого белка:

>XP_026905295.2 ATP synthase subunit delta, mitochondrial [Acinonyx jubatus]
MLPVAVLRRPGLRCLVRQARAYAEAAAAPAPASGPGQMSFTFASPTQVFFNGANVRQVDVPTQTGA
FGILAAHVPTLQVLRPGLVVVHAEDGTTSKYFVSSGSVTVNADSSVQLLAEEAVTLDMLDVGAAKV
NLEKAQSELSGAADEASRAEIQIRIEANEALVKALE

Идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок: NC_069383.1. Последовательность ДНК, непосредственно содержащая кодирующую белок часть гена δ-субъединицы АТФ-синтазы:

>NC_069383.1:c165050974-165048698 ATP5F1D [organism=Acinonyx jubatus] [GeneID=106983723] [chromosome=A2]
TCGCCATGCTGCCCGTCGCGGTCCTGCGCCGTCCCGGCCTGCGCTGCCTCGTCCGTCAGGCCCGCG
CCTACGCGGAGGCTGCGGCTGCGCCGGCCCCGGCTTCGGGCCCGGGCCAGATGTCCTTCACCTTCG
CCTCACCCACGCAGGTTCGGATTCCGGTCGGGCTCGGGACCCCTCCTTGATCACCACCTCCAGTCG
AGATCCGCTGTGGTCCGCAATCGGAGACCTCCAACCTTTGGGTTGTCGACCCTCATTTATTCCGCT
CCCTGTGCCCCCTCCCCCGTGTGGTCCGAAATCCATCCCCAGGCCACCGCCTCCTGCTCCGGATCC
ATGTCCTCATTCCGCACCCCGGATCCGCGTCGGCGCCCCAATGTGGTCAGGACTCCCGGATCCCCA
GCCTCCGAGTCTCGGAGATCCCTAACTCCCCCTCCAGGACCCCGGACCGATGCCCCCTCCACCTGT
GTCCCTCCGAGAGCCACCCCCCAACCCCTGTGTCGTTGACCCGCGCCCTACGCCTTTCCAAGTGGT
GTGGAATCCGAGCCCCATAAAGCTTTCCGAGTTCCCGAGCCTTCCGCCTGGAATCCAACGCCCCAG
GGCTGGACCTCACCGTTCTGCCCGTCCCGCAGAACCCCGAGCCTCAGACACTTGTTGTCTTGTGTC
TTCCTGGGTCGGCGCGCTTCTCGTGCGTGCTCTTGGCAGCGTTTCTGTGGGGACGGGTTCCGTCTG
GATTTTATCTTCTGTGCACTAAGACGCTGCTAGAGAACCAAGACAAGTATGCGCGTCCTCGTGGCT
GCTTCCGTGTGTGCTCTGTCGCCGTGGGGTCTTGCCTTGGGCCGTTTCACTGCAGGGCAGACTGAG
ATCCGGGTGGGGAGGACTGGCCTGCAGGGATTCCCCGCGTGTTCTTCCAGGTATTTTTCAATGGTG
CCAACGTCCGGCAAGTGGACGTTCCCACGCAGACGGGAGCCTTTGGCATCCTGGCGGCCCACGTAC
CCACCTTGCAGGTGCTGCGGCCGGGGCTGGTTGTTGTCCACGCCGAGGACGGCACCACCTCCAAAT
ACTTTGGTGAGTGCACCGGGAAGGGGCTGGGCGGGGCCACGGGCTTCAGCAGGCCCAAGTGTCTCG
CTTCTCCGTGTGGATAGAAGCAGAGCCCACGAGAGAGACAAACCCGTGCCTCCAGTAGCTTGTGGT
GGGTCAGGGTCTCGGTGGGGGCCAGGCGTCTGAGAGGGAAGTCCAGTCCTGTCGCAGAGGAGCCGA
TGGAGAGGGCGGGGGGGGGGGGGTAACTGGATCCTAAGGAGAGCGTGCAGCAGCACAACTCTGAGG
TACAGCCAAGATGCAGACCTGGCGCCCCGCTCACCCCTGACCCTGGCTCAGCTGATGGGCTGGTGC
TGGTGGGTGAAGGAAGGAGGCCCTGTTCCCCGTGTGCAGGTGCCAGTGGGCGACCATGGGCCCTGT
GGGCATCAGCCTGTCTCCCATGCTAGACCGCTCTGGAGCCGCTTCTGTGGCTCTGGCTGACGGGGT
CCCCCGCACCCGAACACGGAACTCTCACGGCTGTCTTCTCCCGTAGTGAGTAGCGGCTCCGTCACA
GTGAACGCTGATTCCTCAGTGCAGTTGTTGGCTGAAGAGGCCGTGACCTTGGACATGCTGGACGTG
GGGGTGAGTGTTCCAGGGGAAGCCGATGGACCCAGGAGGCCACATCTGAGCCAGGGCACCAGGCGG
GGTCGCTGCTTGGCTCTCACCTGCTACCCACTTCCTGCAGGCCGCCAAGGTGAACTTGGAGAAGGC
GCAGTCGGAGCTGTCAGGGGCAGCAGACGAGGCCTCCAGGGCCGAGATCCAAATCCGCATCGAGGC
CAACGAGGCCCTGGTGAAAGCTCTCGAGTAGGCGGTCCGTGGCCCTTGCCAGCGGGGAAACCGAGG
CCCAGGACCGGACCGGGGATGTCCCGGGCAGGCTGAACCAGCTCGCGTGGGTCGTCTGATTGGGGG
TGGGGAAGTGGGGAGAGAGGGGCCGCGAGCCACCTGGGGGATTCTTGGGTGGAGGGAGCGGTCTTG
CCAAGAGGCCGCCAGGGGGCAGCACACTGTCAGGCCTCCTAGCGAAGGGGGGCTCGGCTGAGACCC
TGCTCTGCATCTCACCTTCCAGCCGGCTCCCCCCGCCCCAACCGGACGTGCCACCCATTTTCTCTC
TAACCTTGTAGACTCTGCTGTGGAGCCCTCAGCTCCTCGTCCTGCCCCCTGGGACAGCCCGCTCCCA
GCTTGAGCCCCCCATAAAAACCAGGGACCTGA
окрестность
окрестность

Рис. 1 и 2. Экспрессия участка гена, кодирующего δ-субъединицу АТФ-синтазы

Зеленым изображен ген, красным - мРНК, черным - белок (нижняя картинка). Координаты кодирующей белок части гена: [165,050,969..165,049,096].

Задание 2. Разные варианты BLAST для фрагмента ДНК

Для оценки сходства изучаемого белка с гомологичными белками других организмов была проведена оценка по группе эукариотических организмов групп Araneae (Пауки) и Apoidea (Пчелы), поскольку АТФ-синтаза является эволюционно консервативным белком.

При поиске с помощью blastn никаких результатов получено не было, даже при уменьшении длины слова до 7.

С использованием tblastn при поиске среди доступных паучьих геномных сборок было получено четыре выравнивания. При поиске среди пчел (Apoidea), tblastn обнаружил 38 совпадений. По рисункам ниже можно сделать вывод, что пчелиные дельта субъединицы АТФ-синтазы по последовательности похожи на гепардову больше, чем паучьи. В обоих случаях была использована стандартная длина слова - 5.

Megablast не использовали, поскольку он нужен для поиска высоко-гомологичных последовательностей, а это не наш случай. Tblastx не был использован, поскольку он работает дольше tblastn (а во время выполнения практикума у меня blast и без того очень долго думал).

Выравнивание для пауков: Araneae.txt

Выравнивание для пчел: Apoidea.txt

Результаты BLAST для пауков

Рис 3. Выдача tblastn для пауков

пчелы

Рис 4. Выдача tblastn для пчел

хз

Задание 3. Поиск в геноме эукариота генов основных рибосомальных РНК по далекому гомологу

Проиндексируем последовательности генома нашего эукариота для работы локального BLAST, который предварительно скачали на наш компьютер:

makeblastdb -in "C:\Users\RedmiDownloads\GCF_027475565.1_VMU_Ajub_asm_v1.0_genomic.fna.gz" -dbtype nucl -out cheetah_db

Далее скачиваем последовательности 16S и 23S рРНК Escherichia coli. По полученной базе данных cheetah_db с помощью blastn проводим поиск для каждой рРНК.

Локальный поиск BLAST для 16S рРНК

Получаем выравнивание следующей командой:

blastn -task blastn -query "C:\Users\Redmi\Downloads\16S.fna.txt" -db cheetah_db -out 16_out -outfmt 7

Среди 11 хитов, приемлемое значение e-value (меньше стандартного для blast 0.05) только у двух находок. Данные находки имеют в геноме следующие идентификаторы: NW_026464032.1, NC_069397.1.

Первая это скаффолд, вторая - хромосома E1. Таким образом для 16S рибосомы кишечной палочки найдено два гомолога в геноме Acinonyx jubatus.

Табличная выдача blastn для 16S рРНК кишечной палочки: 16_out

Локальный поиск BLAST для 23S рРНК

blastn -task blastn -query "C:\Users\Redmi\Downloads\23S.fna.txt" -db cheetah_db -out 23_out -outfmt 7

Здесь уже из 22 хитов 4 значимые находки для NW_026464096.1 и NC_069397.1. Причем три из них выровнялись на скаффолд, по координатам последовательности и скаффолда можно понять, что эти находки составляют один гомолог, то есть всего у нас гомолога два.

Проиллюстрируем следующий участок выравнивания:

query NW_026464096.1  73.143 175  41    3    2442   2613   3492   3663   4.78e-17   96.9
 query NW_026464096.1  75.581 86   21    0    1898   1983   2855   2940   3.44e-06   61.7
 query NW_026464096.1  81.356 59   10    1    2233   2290   3282   3340   5.10e-04   54.5
Локальный поиск BLAST для 23S рРНК

Рис 5. Локальный поиск BLAST для 23S рРНК E.coli и Acinonyx jubatus

Табличная выдача blastn для 23S рРНК кишечной палочки: 23_out

Выводы

В эукариотических организмах 16S и 23S гомологичны соответственно 18S и 28S рРНК. 18S(16S) отвечает за связывание мРНК, контроль кодон-антикодонового взаимодействия и обеспечение точности декодирования. 28S(23S) катализирует реакцию образования пептидной связи. В прокариотической инициации трансляции участвует последовательность Шайна-Дальгарно, которой нет у эукариот, а потому 16S и 23S рРНК малой субъединицы рибосомы отличаются значительнее, что проявляется в количестве хитов и e-value в выдаче blastn.

Задание 4. Построение карт локального сходства

Построим карты локального сходства хромосом архей Natronorubrum bangense (NZ_CP031305.1) и Natronorubrum dagingense (NZ_CP019328.1) двумя программами: megablast, blastn. К сожалению, tblastx не может провести выравнивание, выдавая ошибку поиска.

Карта blastn

Рис 6. Карта blastn

Карта megablast

Рис 7. Карта megablast

По нижнему левому углу можно определить, что кольцевые геномы двух архей секвенировались, начиная с разных участков. Также из рисунков видно, что в геномах есть инверсии, инверсии с транслокациями, делеции и дупликации.