Работа с нуклеотидным BLAST

Определение таксономии и функции прочтенной нуклеотидной последовательности из задания 4

Для выполнения задания я воспользовалась программой Standard Nucleotide BLAST, введя полученную последовательность в виде файла DNA.fasta. И получила следующий результат:

Из результата работы программы можно сделать следующие выводы:

  • Для аннотации достаточно и 10 находок, так как все они указывают на один и тот же организм и один и тот же белок.
  • Последовательность ДНК, с которой я работаю, принадлежит виду Modiolus modiolus (двустворчатый моллюск), который имеет систематику: Eukaryota; Metazoa; Lophotrochozoa; Mollusca; Bivalvia; Pteriomorphia; Mytiloida; Mytiloidea; Mytilidae; Modiolinae; Modiolus.
  • Данная последовательность содержит ген "CO1" митохондриальной ДНК Modiolus modiolus, котрый кодирует субъединицу 1 цитохромоксидазы С (cytochrome c oxidase subunit 1).

В программе JalView я построила выравнивание моей последовательности ДНК (на рисунке выделена в рамку) с 10 находками BLAST. Cверху от неё - последовательности с геном CO1, кодирующим субъединицу 1 цитохромоксидазы С (cytochrome c oxidase subunit 1), с противоположной ориентацией в геноме; сснизу - последовательности с геном COI, кодирующим тоже субъединицу 1 цитохромоксидазы С (cytochrome c oxidase subunit 1), но имеющим положительную ориентацию в геноме.

Почему-то в названии находок с геном CO1 присутствует слово "isolate", а в находках с геном COI вместо этого слова написано "voucher". Я склонна думать, что это указывает на ориентацию гена в ДНК. Так как моя последовательность больше всего схожа с находкой Modiolus modiolus isolate Mo45 cytochrome c oxidase subunit 1 (CO1) gene, partial cds; mitochondrial (самая верхняя на изображении выравнивания), то я считаю правильным назвать исследуемый ген как CO1.

Сравнение списков находок нуклеотидной последовательности разными алгоритмами BLAST

Для последовательности ДНК из задания 4 я решила сравнить находки, полученные разными алгоритмами BLAST. Чтобы их было возможно адекватно оценивать, я для всех запусков программы указывала одинаковые параметры, отличные от тех, что указаны по умолчанию. Сходства искались среди организмов из одного семейства, но из других родов. На следующих двух изображениях представлены параметры для запуска программы BLASTN (Standard Nucleotide BLAST).

Ниже представлен результат работы программы BLASTN (Standard Nucleotide BLAST). Число находок 21. Этот алгоритм программы сравнивает мою нуклеотидную последовательность, которую я даю на вход, с нуклеотидными последовательностями из базы данных Nucleotide collection (nr/nt), строит локальные парные выравнивания и выводит выравнивания с наибольшим весом.

Следующие параметры я использовала при запуске программы BLASTX (Translated BLAST).

Ниже представлен результат работы программы BLASTX (Translated BLAST). Число находок 16. Этот алгоритм прграммы переводит мою нуклеотидную последовательность, которую я даю на вход, в 6 аминокислотных последовательностей и сравнивает их с аминокислотными последовательностями из базы данных Non-reductant protein sequences (nr). Затем программа также строит все возможные парные выравнивания и выдаёт находки с наибольшим весом выравнивания.

Следующие параметры я использовала при запуске программы TBLASTX (Translated BLAST)

Ниже представлен результат работы программы TBLASTX (Translated BLAST). Число находок 21. Этот алгоритм прграммы переводит мою нуклеотидную последовательность, которую я даю на вход, в 6 аминокислотных последовательностей и сравнивает их с аминокислотными последовательностями, полученными в результате трансляции нуклеотидных последовательностей из базы данных Nucleotide collection (nr/nt) в соответствующие белковые последовательности. Затем программа также строит все возможные парные выравнивания аминокислотных последовательностей и выдаёт находки с наибольшим весом выравнивания.

Из таблицы 1 видно, что алгоритмы BLASTN и TBLASTX выдали одинаковое число находок, причём списки их находок тоже совпадают. Отличается лишь порядок находок в этих списках, т.к. разные алгоритмы по-разному оценивают и строют выравнивания.

Таблица 1. Число находок различными алгоритмами BLAST
BLASTN BLASTX TBLASTX
Число находок 21 16 21

Что же касается алгоритма BLASTX, то он выдал меньше находок. Ниже представлено изображение тех находок, которые данная программа не обнаружила.

Сравнение алгоритмов BLASTN, BLASTX и TBLASX демонстрирует, что в зависимости от того, какая у вас цель, вам слудует воспользоваться тем или иным алгоритмом BLAST. Для поиска схожих нуклеотидных последовательностей с целью определения таксономии и функции подойдёт алгоритм BLASTN. Если вы заранее знаете или предполагаете, что ваша нуклеотидная последовательность содержит ген, то вы можете воспользоваться алгоритмом BLASTX для определения названия кодируемого белка и положения гена в нуклеотидной последовательности. В данном случае желательно на вход подавать небольшую последовательность в формате FASTA, содержащую предполагаемый ген, т.е. для ДНК с большим количеством интронов и экзонов программа будет долго работать и вероятно выдаст ошибочные результаты. К тому же невозможно будет обнаружить участки, с которых синтезируются тРНК или рРНК. Алгоритм TBLASTX позволяет искать схожие нуклеотидные последовательности, как и BLASTN, но при этом участки с различными нуклеотидами будут считаться как одинаковые участки, если в результате мутаций они продолжили кодировать одинаковые аминокислоты. Следом идут последовательности, в которых мутации в геномах привели к замене аминокислот на другие аминокислоты, но со схожими функциями.

В моём случае тот факт, что алгоритм BLASTX выдал меньше находок, можно объяснить тем, что ненайденные пять находок в реальности кодируют белки сильно отличающиеся от гипотетических белков, которые может кодировать моя нуклеотидная последовательность.

Проверка наличия гомологов трех белков в геноме организма Amoeboaphelidium protococarum

В соответствии с заданием я решила проверить, присутствуют ли в геноме Amoeboaphelidium protococarum гены, кодирующие такие белки, как теломеразная обратная транскриптаза (Telomerase reverse transcriptase), митохондриальная цитратсинтаза (Citrate synthase, mitochondrial) и cубъединица RPB1 ДНК-зависимой РНК-полимеразы II (DNA-directed RNA polymerase II subunit RPB1).

Теломеразная обратная транскриптаза - Telomerase reverse transcriptase - TERT_HUMAN - O14746 (UniProt ID) - каталитическая субъединица фермента, который необходим для репликации терминальных концов хромосом у большинства эукариот. В нормальных соматических клетках он находится в практически неактивном состоянии. Каталитический комплекс удлинняет теломеры, действуя как обратная транскриптаза. Он добавляет простую нуклеотидную последовательность повторов к концам хромосом путём копирования шаблонной последовательности с теломеразной РНК компоненты фермента.

Митохондриальная цитратсинтаза - Citrate synthase, mitochondrial - CISY_HUMAN - O75390 (UniProt ID) - митохондриальный фермент, существующий почти во всех живых клетках и участвующий в первом шаге цитратного цикла, или цикла Кребса. Этот фермент кодируется в ядерной ДНК, синтезируется цитоплазматическими рибосомами, после чего отправляется в митохондриальный матрикс. Там он катализирует реакцию:

Субъединица RPB1 ДНК-зависимой РНК-полимеразы II - DNA-directed RNA polymerase II subunit RPB1 - RPB1_HUMAN - P24928 (UniProt ID) - самая большая субъединица РНК-полимеразы II, которая совместно с другими субъединицами полимеразы образует ДНК-связывающий домен полимеразы, в котором матрица ДНК транскрибируется в РНК. ДНК-зависимая РНК-полимераза II катализирует транскрипцию ДНК в РНК с использованием четырёх различных трифосфатов рибонуклеозидов в качестве субстратов. Таким образом в клетке синтезируются предшественники мРНК, малые ядерные РНК и множество малых некодирующих молекул РНК.

Последовательности выше указанных белков я скачала с сайта UniProt, записав их для удобства все в один файл.

Сначала я создала локальную базу данных, содержащую геном Amoeboaphelidium protococarum, записанный в файле X5.fasta:

makeblastdb -in X5.fasta -dbtype nucl

Затем я воспользовалась программой tblastn, которая находит гомологи белка в формальной трансляции нуклеотидного банка:

tblastn -query prots.fasta -db X5.fasta -out proteins.out

Для Теломеразной обратной транскриптазы (Telomerase reverse transcriptase) было обнаружено 3 находки:

Лучшая из них выглядит следующим образом:

> scaffold-17
Length=2125590

 Score =  105 bits (263),  Expect = 8e-23, Method: Compositional matrix adjust.
 Identities = 151/568 (27%), Positives = 248/568 (44%), Gaps = 43/568 (8%)
 Frame = +1
Query  452     LRQHSSPWQVYGFVRACLRRLVPPGLWGSRHNERRFLRN-TKKFISLGKHAKLSLQELTW  510
               L  +S P  V  FVR  L ++     +G   N   F+ N     ++L K   +       
Sbjct  610942  LNDYSRPHDVKQFVRCVLIKVFRCNFFGGMENLNAFVDNAVGMLLNLRKFESMPEASFIV  611121

Query  511     K-MSVRDCAWLRRSPGV--GCVPAAEHRLREEILAKFLHWLMSVYVVELLRSFFYVTETT  567
               K +      WLR         V   EH+    + +    WL++ +V +LL++ F++T+T+
Sbjct  611122  KGIQSSRIMWLRSKLNT*PKVVNKLEHQKL**LCSSLFQWLLNRFVSDLLKACFFITDTS  611301

Query  568     FQKNRLFFYRKSVWSKLQSIGIRQHLKRVQLRELSEAEVRQHREARPALLTSRLRFIPKP  627
                 KNR+F+YR  +W ++  + ++  +K   L  +    +   R+       S +R IPK 
Sbjct  611302  HCKNRVFYYRFDLWRRM--VEVQSSIK--NLHPIDMG*INTGRK-----FMS*IRLIPKE  611454

Query  628     DG-LRPIVNMDYVVGARTFRREKRAERLTSRV-KALFSVLNYERARRPGLLGASVLGLDD  685
               +G  R I N+      R+    K    L S     L S  NY       LL   VL  DD
Sbjct  611455  NGSFRRINNL------RSVNNNK*MYGLLSDA*CILLSEKNYG*I---DLLKDIVLSNDD  611607

Query  686     IHRAWRTFVLRVRAQDPPPE-LYFVKVDVTGAYDTIPQDRLTEVIASIIKPQNTYCVRRY  744
               I+   + F +R +A+    + LYFVK DVT AYD+I + +L  V+  I    + + +  Y
Sbjct  611608  IYARLK*FKMRNKARF*RGD*LYFVKSDVT*AYDSINRQKLFSVLE*IF**DSEFIIHGY  611787

Query  745     AVVQKAAHGHVRKAFKSHVSTLTDLQPYMRQFVAHLQETSPLRDAVVIEQSSSLNEASSG  804
                   +             VS   +      +F   L ++  + + V I++      + + 
Sbjct  611788  *R*LQLCLLR*F*KLYHKVSIRAE*HQTFPEFCKELAKS--IANKVFIDKV**KKVSGAD  611961

Query  805     LFDVFLRFMCHHAVRIRGKSYVQCQGIPQGSILSTLLCSLCYGDME-NKLFAGIrrdgll  863
               +F    + +  + ++     YVQ +GIPQGSI+S+LLCSL Y  +  N+LF   RR   L
Sbjct  611962  VFKAIEQLIYDNILQFEDGYYVQEEGIPQGSIVSSLLCSLLYSHLALNELFTFTRRSDSL  612141

Query  864     lrlvddfllVTPHLTHAKT----FLRTLVRGVPEYGCVVNLRKTVVNFPVEDEALGGTAF  919
               L    D  L   +LT  K     +L  +  G P+YG  +N +KT  N    DE       
Sbjct  612142  LIKFIDDFL---YLTFDKA*A*GYLSRI*IGFPDYGVHMNPKKTATNCLDMDEH------  612294

Query  920     VQMPAHGLFPWCGLLLDTRTLEVQSDYSSYARTSIRASLTFNRGFKAGRNMRRKLFGVLR  979
                  P   +  +CG L+    L V  D + Y  +++  +L+ N     G     KL   +R
Sbjct  612295  -SAPLQEV-SFCGHLIQVGDLSVSIDMNRYIGSNLSDALSVNYDKNPGDRAIDKLVQYVR  612468

Query  980     LKCHSLFLDLQVNSLQTVCTNIYKILLL  1007
                K   ++ D  +N + TV  NI++ +L+
Sbjct  612469  PKSLCMYFDCSLNGV*TVAMNIFENMLI  612552

Я бы назвала этот результат отрицательным, так как крайне малы проценты полных совпадений (Identities) и функциональных совпадений (Positives). К тому же при длине теломеразной обратной транскриптазы в 1132 аминокислотных остатка мы видим очень малый процент перекрывания (50.2 %). Хоть в данном выравнивании и присутствуют консервативные участки, но утверждать о гомологии из-за этого нельзя.

Для теломеразной обратной транскриптазы я построила множественное выравнивание, взяв последовательности белка из разных организмов. В результате я увидела, что данный белок не консервативен, а весьма вариабелен. Поэтому возможно, что scaffold-17 в действительности кодирует теломеразную обратную транскриптазу, только она в значительной степени отличается от таковой из организма человека. К тому же стоит отметить, что наиболее консервативные участки всё же присутствуют в нашем образце. Тогда такой результат стоит назвать условно положительным.

Для Митохондриальной цитратсинтазы (Citrate synthase, mitochondrial) было обнаружено 4 находки:

Лучшая из них выглядит следующим образом:

> scaffold-693
Length=1268102

 Score =  565 bits (1457),  Expect = 2e-180, Method: Compositional matrix adjust.
 Identities = 262/377 (69%), Positives = 315/377 (84%), Gaps = 3/377 (1%)
 Frame = +1

Query  90       GIRFRGFSIPECQKLLPKAKGGEEPLPEGLFWLLVTGHIPTEEQVSWLSKEWAKRAA-LP  148
                GIRFRG +IPEC + LPKA GG EPLPEGLF+LL+TG +PT+EQV  +S++WA RA+ LP
Sbjct  1243882  GIRFRGMTIPEC*EKLPKANGG*EPLPEGLFYLLLTGEVPTKEQVDEVSRDWANRASSLP  1244061

Query  149      SHVVTMLDNFPTNLHPMSQLSAAVTALNSESNFARAYAQGISRTKYWELIYEDSMDLIAK  208
                 HV  ++D  P  LHPMSQ S AVTA+  +S FA+AY QG+ ++KYWE  YEDSMDLIAK
Sbjct  1244062  KHVEDIID*CPVTLHPMSQFSIAVTAMQHDSKFAQAYQQGVHKSKYWEYAYEDSMDLIAK  1244241

Query  209      LPCVAAKIYRNLYREGSGIGAIDSNLDWSHNFTNMLGY-TDHQFTELTRLYLTIHSDHEG  267
                LP VA++IYRN++++G  + AID   DWS+NF NMLG+  D QF EL RLYLTIHSDHEG
Sbjct  1244242  LPVVASRIYRNVFKDGK-VAAIDKTKDWSYNFANMLGFGKDAQFVELMRLYLTIHSDHEG  1244418

Query  268      GNVSAHTSHLVGSALSDPYLSFAAAMNGLAGPLHGLANQEVLVWLTQLQKEVGKDVSDEK  327
                GNVSAHT+HLVGSALSDPYLSFAA +NGLAGPLHGLANQEVL W+ Q+++E+G +VSDE+
Sbjct  1244419  GNVSAHTTHLVGSALSDPYLSFAAGLNGLAGPLHGLANQEVLRWILQMKEEIGTNVSDEQ  1244598

Query  328      LRDYIWNTLNSGRVVPGYGHAVLRKTDPRYTCQREFALKHLPNDPMFKLVAQLYKIVPNV  387
                +RDY W TL SG+V+PGYGHAVLRKTDPRYTCQREFALKHLP DP+FK+V+QLY IVPNV
Sbjct  1244599  VRDYCWKTLKSGQVIPGYGHAVLRKTDPRYTCQREFALKHLPTDPLFKMVSQLYNIVPNV  1244778

Query  388      LLEQGKAKNPWPNVDAHSGVLLQYYGMTEMNYYTVLFGVSRALGVLAQLIWSRALGFPLE  447
                L EQGK KNP+PNVDAHSGVLLQ+Y + E  +YTVLFGVSRALG L+QL+W RALG P+E
Sbjct  1244779  LTEQGKTKNPFPNVDAHSGVLLQHYNLKEQEFYTVLFGVSRALGCLSQLVWDRALGLPIE  1244958

Query  448      RPKSMSTEGLMKFVDSK  464
                RPKS++T+ + K  D K
Sbjct  1244959  RPKSLTTDTIKKMFDGK  1245009


 Score = 74.3 bits (181),  Expect = 7e-14, Method: Compositional matrix adjust.
 Identities = 31/64 (48%), Positives = 51/64 (80%), Gaps = 0/64 (0%)
 Frame = +3

Query  26       ASASSTNLKDILADLIPKEQARIKTFRQQHGKTVVGQITVDMMYGGMRGMKGLVYETSVL  85
                ++ ++T+LK+ L++L+P +   +K  R++HG+  +G +TVDM YGGMRG+KGL++ETS+L
Sbjct  1243623  STTTATSLKNRLSELVP*K*EEVKRVRKEHGEKSLGNVTVDMAYGGMRGIKGLIWETSLL  1243802

Query  86       DPDE  89
                D DE
Sbjct  1243803  DADE  1243814

Находка, представленная выше, предполагает, что мРНК, с которой транслируется митохондриальная цитратсинтаза, образуется в результате сплайсинга. Проценты совпадений в выравнивании достаточно велики, чтобы можно было предположить гомологию. Известно, что активный центр этого фермента содержит 3 ключевых остатка: His301, His347 и Asp402. Из выравнивания видно, что все три аминокислотных остатка сохранили своё относительное расположение, к тому же они находятся в консервативном блоке. Всего митохондриальная цитратсинтаза содержит 466 аминокислотных остатка. Длина выравнивания составляет 441 аминокислотный остаток. Следовательно процент перекрывания равен 94.6 %. Из всего вышеуказанного можно сделать вывод, что данный результат положителен, и в геноме Amoeboaphelidium protococarum есть гомолог человеческой митохондриальной цитратсинтазы. Отсюда, видимо, можно предположить, что у данного организма скорее всего есть митохондрия.

Для Субъединицы RPB1 ДНК-зависимой РНК-полимеразы II (DNA-directed RNA polymerase II subunit RPB1) было обнаружено 5 находок:

Лучшая из них имеет следующие параметры:

> scaffold-300
Length=293202

 Score = 1495 bits (3870),  Expect = 0.0, Method: Compositional matrix adjust.
 Identities = 799/1547 (52%), Positives = 1079/1547 (70%), Gaps = 65/1547 (4%)
 Frame = +1

Субъединица RPB1 ДНК-зависимой РНК-полимеразы II состоит из 1970 нуклеотидных остатка. Длина выравнивания равна 1547 аминокислотных остатка. Следовательно процент перекрывания равен 78.5 %. Хотя проценты совпадений довольно велики, но в выравнивании содержится много гэпов. В данном белке ключевые позиции занимают остатки: Cys71, Cys74, Cys81, His84, Cys111, Cys114, Cys154, Cys184, Asp495, Asp497, Asp499. Из выравнивания видно, что ключевые остатки находятся в консервативных блоках. Причём остатки Cys71, Cys74, Cys81, His84 связываются с одним катионом цинка, остатки Cys111, Cys114, Cys154, Cys184 связываются с другим катионом цинка, остатки Asp495, Asp497 и Asp499 связываются с одним катионом магния и выполняют каталитическую функцию, помимо этого остатки Asp495 и Asp497 также связываются со вторым катионом магния совместно с субъединицей RPB2. Так как сайты, выполняющие каталитическую функцию, расположены в длинном консервативном блоке выравнивания, то я считаю, что данный результат положителен, то есть в геноме Amoeboaphelidium protococarum найден гомолог субъединицы RPB1 ДНК-зависимой РНК-полимеразы II с той же функцией. Однако, количество различий в выравнивании говорит о том, что гены, кодирующие данный белок разошлись очень давно, и с тех пор в них произошло много мутаций, но функция сохранилась прежней. Поэтому данный белок вариабелен.

Посмотреть изображение выравнивания.

Для подтверждения своей точки зрения я построила множественное выравнивание в JalView субъединиц RPB1 ДНК-зависимой РНК-полимеразы II из различных организмов. Участок, который сильно выделяется среди остальных последовательностей, скорее всего удаляется в ходе сплайсинга. Посмотреть изображение множественного выравнивания. Последовательность полученная из генома Amoeboaphelidium protococarum выделена красной рамочкой.

Поиск гена белка, закодированного в скэффолде Amoeboaphelidium protococarum

Для справки: cellular organisms; Eukaryota; Opisthokonta; Nucleariidae and Fonticula group; Aphelidea; Amoeboaphelidium; Amoeboaphelidium protococarum.

Сначала я получила информацию о длинах скэффолдов с помощью программы infoseq пакета EMBOSS:

infoseq X5.fasta -only -name -length

Я выбрала scaffold-514 длиной в 59281 пар нуклеотидов (пн). Затем с помощью команды seqret я получила последовательность нужного скэффолда:

seqret X5.fasta:scaffold-514 -out 514.fasta

Затем я запустила программу BLASTN с ограничением по таксону: Opisthokonta (taxid:33154), максимальным числом находок: 50 и порогом ожидания: 0.001. Остальные параметры использовались по умолчанию. В результате я получила следующие находки (на картинке представлены первые 20 находок):

Мы видим, что программа выдала много предсказанных и неохарактеризованных белков. Однако, все достоверные находки указывают на то, что в скэффолде-514 присутствует участок, с которого, возможно, траскрибируется мРНК, которая затем транслируется в бета-актин (beta actin). Лучшая такая находка:

>AF025305.1 Danio rerio beta actin mRNA, complete cds
Length=1143

 Score = 1144 bits (619),  Expect = 0.0
 Identities = 961/1130 (85%), Gaps = 8/1130 (1%)
 Strand=Plus/Minus

Query  9243   AGAAGCACTTTCTGTGCACAATAGATGGTCCAGACTCATCGTACTCCTGCTTGCTGATCC  9302
              ||||||| || | ||| || || |||||||||||||||||||||||||||||||| ||||
Sbjct  1132   AGAAGCATTTGCGGTGGACGATGGATGGTCCAGACTCATCGTACTCCTGCTTGCTAATCC  1073

Query  9303   ACATCTGTTGGAAGGTGGACAAGCTAGCCAGGATGGAGCCACCGATCCAGACAGAGTACT  9362
              ||||||| ||||||||||||| |   |||||||||||||| ||||||||||||||||| |
Sbjct  1072   ACATCTGCTGGAAGGTGGACAGGGAGGCCAGGATGGAGCCTCCGATCCAGACAGAGTATT  1013

Query  9363   TACGCTCTGGAGGAGCAACAACCTTGATCTTCATGCTGCTAGGAGCCAGAGCAGTGATTT  9422
              ||||||| || || ||||  | ||||||||||||  ||||||| ||||| |  ||||| |
Sbjct  1012   TACGCTCCGGTGGGGCAATGATCTTGATCTTCATTGTGCTAGGGGCCAGGGATGTGATCT  953

Query  9423   CCTTCTGCACTCTGTCAGCAATACCAGGGTACATGGTAGTACCACCAGACAAGACAATGT  9482
              |||||||||  ||||||||||| |||||||||||||| |||||||||||||| ||| |||
Sbjct  952    CCTTCTGCATCCTGTCAGCAATGCCAGGGTACATGGTGGTACCACCAGACAATACAGTGT  893

Query  9483   TAGCATACAGATCCTTACGAATATCAACATCACACTTCATGATGGAGTTGTAGGTAGTCT  9542
              | |||||||| |||||||| || || || ||||||||||||||||||||| |||| ||||
Sbjct  892    TGGCATACAGGTCCTTACGGATGTCGACGTCACACTTCATGATGGAGTTGAAGGTGGTCT  833

Query  9543   CGTGGACACCAGC-AGCTTCCATACCCAAGAATGAAGGCTGGAACAGAGCTTCTGGGCAA  9601
              |||||| ||| || || ||||||||||||||| || ||||||||||| || |||||||| 
Sbjct  832    CGTGGATACC-GCAAGATTCCATACCCAAGAAGGATGGCTGGAACAGGGCCTCTGGGCAC  774

Query  9602   CGGAAACGCTCATTACCAATGGTGATGACTTGACCGTCAGGCAGCTCGTAACTCTTCTCC  9661
              | ||| | |||||| |||||||||||||| || ||||||||||||||||| |||||||||
Sbjct  773    CTGAACCTCTCATTGCCAATGGTGATGACCTGTCCGTCAGGCAGCTCGTAGCTCTTCTCC  714

Query  9662   AGAGCAGAGGAGGTGGAAGCAGTC-TG--CATCTCCTACTCAAAGTCCAGAGCAACATAG  9718
              || |  ||||||| ||||||||   ||  |||||||| ||||||||| || || ||||||
Sbjct  713    AG-G--GAGGAGGAGGAAGCAGCGGTGCCCATCTCCTGCTCAAAGTCAAGGGCCACATAG  657

Query  9719   CACAGCTTCTCCTTGATGTCACGAACAATTTCACGCTCAGCAGTGGTAGTGAAAGAGTAA  9778
              || |||||||||||||||||||| |||||||| | |||||| ||||| |||||   ||| 
Sbjct  656    CAGAGCTTCTCCTTGATGTCACGGACAATTTCCCTCTCAGCTGTGGTGGTGAAGCTGTAG  597

Query  9779   CCACGCTCAGTCAGAATCTTCATCAGGTAGTCAGTCAAGTCACGGCCAGCCAGGTCCAGA  9838
              || | ||| ||||| |||||||| ||||||||||||| |||||||||||||| |||||||
Sbjct  596    CCTCTCTCGGTCAGGATCTTCATGAGGTAGTCAGTCAGGTCACGGCCAGCCAAGTCCAGA  537

Query  9839   CGCAGAATAGCGTGAGGCAGAGCATAACCTTCATAGATAGGCACAGTGTGGGAGACACCA  9898
              || || || || || ||||| || ||||| || ||||| ||||||||||||| |||||||
Sbjct  536    CGGAGGATGGCATGGGGCAGGGCGTAACCCTCGTAGATGGGCACAGTGTGGGTGACACCA  477

Query  9899   TCACCAGAGTCCAAGACAATACCAGTGGTACGACCGGAAGCATACAGAGACAGCACAGCC  9958
              |||||||||||||  || ||||||||||||||||| || |||||||| ||||||||||||
Sbjct  476    TCACCAGAGTCCATCACGATACCAGTGGTACGACCAGAGGCATACAGGGACAGCACAGCC  417

Query  9959   TAGATAGCAACGTAGAAGGCAGGCACATTGAAGGTCTCGAACATGATCTGAGTCATCTTC  10018
              | ||| |||||||| | ||| ||    ||||||||||||||||||||||| |||||||| 
Sbjct  416    TGGATGGCAACGTACATGGCGGGGGTGTTGAAGGTCTCGAACATGATCTGTGTCATCTTT  357

Query  10019  TCACGGTTAGCCTTTGGGTTCAGAGGAGCCTCAGTACACAGGACTGGGTGCTCTTCTGGA  10078
              || | ||| ||||| |||||||| || ||||| ||   |||||| |||||||| ||||| 
Sbjct  356    TCCCTGTTGGCCTTGGGGTTCAGGGGGGCCTCTGTGAGCAGGACGGGGTGCTCCTCTGGG  297

Query  10079  GCAACACGCAGCTCATTGTAAAAGGTATGGTGCCAGATCTTCTCCATGTCGTCCCAGTTG  10138
              |||||||||||||||||||| ||||| || ||||||||||||||||| || |||||||||
Sbjct  296    GCAACACGCAGCTCATTGTAGAAGGTGTGATGCCAGATCTTCTCCATATCATCCCAGTTG  237

Query  10139  GTCACAATACCGTGCTCAATAGGATACTTCAGGGTGAGGATACCACGCTTGGACTGAGCC  10198
              || ||||||||||||||||| || ||||||||||| |||||||| | ||||  |||||||
Sbjct  236    GTGACAATACCGTGCTCAATTGGGTACTTCAGGGTCAGGATACCTCTCTTGCTCTGAGCC  177

Query  10199  TCATCACCAACATAAGAGTCCTTCTGGCCCATACCAACCATGACACCTTGATGACGAGGA  10258
              ||||||||||| ||   ||| ||||| |||||||||||||||||||| ||||| |  || 
Sbjct  176    TCATCACCAACGTAGCTGTCTTTCTGTCCCATACCAACCATGACACCCTGATGTCTGGGG  117

Query  10259  CGACCAACAATGGATGGGAAGACAGCTCTTGGAGCATCATCACCAGCAAAGCCAGCCTTG  10318
              ||||| || |||||||||||||||||||  ||||||||||| ||||| || || || |||
Sbjct  116    CGACCCACGATGGATGGGAAGACAGCTCGGGGAGCATCATCTCCAGCGAATCCGGCTTTG  57

Query  10319  CACATACCTGAACCGTTGTCAATAACCAATGCAGCAACTTCGTCTTCCAT  10368
              |||||||| || |||||||||| ||||| ||| |||| ||| || |||||
Sbjct  56     CACATACCGGATCCGTTGTCAACAACCAGTGCGGCAATTTCATCATCCAT  7

При запуске программы BLASTX с теми же изменёнными параметрами мы получим следующие находки (на картинке представлены первые 20 находок):

Очень много гипотетических белков, но те, которые ими не являются, представляют собой аминокислотные последовательности белка фимбрина (fimbrin), участвующего в перекрёстном связывании актина и играющего важную роль в формировании филоподий. Как известно, Amoeboaphelidium protococarum в состоянии споры формируют филоподии, содержащие хорошо развитые актиновые микрофиламенты. К тому же фимбрин является высококонсервативным белком. Он управляет формированием плотно связанных актиновых филаментов, которые принимают участие в динамических процессах, включая цитокинез и вторжение в клетку хозяина. Лучшая находка:

>XP_004345335.1 fimbrin [Capsaspora owczarzaki ATCC 30864]
 KJE96233.1 fimbrin [Capsaspora owczarzaki ATCC 30864]
Length=627

 Score = 702 bits (1812),  Expect = 0.0, Method: Compositional matrix adjust.
 Identities = 364/619 (59%), Positives = 478/619 (77%), Gaps = 4/619 (1%)
 Frame = -1

Query  3595  SKYFEVGRKFTQFKDSEIDLFIKQFQSFDKDGNGHIDKSELHKVCQELGEAISTEDLSKK  3416
             S +     KF +F   +++ F++ F+S D DG+G ID +EL  V + LGE  + E++  +
Sbjct  2     SDFQAAASKFPEFSADDVEKFVQTFKSMDADGSGSIDAAELGAVLRSLGEKATPEEVRAQ  61

Query  3415  IAEVDQNNNNTVEFDEFLQVIAKIRERRVGSDKGFGALYQK*ARLVKMGGATEASAHSIN  3236
             I EVD N + T+EF+EFL +I+++R  +  SD GFG  + K +++V +GG++++ AHS +
Sbjct  62    IQEVDTNRSGTIEFNEFLGIISRLRAGKASSDAGFGKTFTKQSKVVTVGGSSDSIAHSFS  121

Query  3235  EDEHEQFVLHINAALKNDADV*NKLPINPLEFGDLYEKCKDGLVLCKLINDSVPDTIDER  3056
             EDE E FV HIN  L  DAD+  + P++  +   ++E  KDGL+LCKLIN SVPDTIDER
Sbjct  122   EDEKESFVDHINMELGTDADIGKRFPLDSHDMS-IFEAVKDGLLLCKLINYSVPDTIDER  180

Query  3055  VLNKGNKLNTF*KTENNNVVVNSAKAIGCSVVNIGAQDliegreililgLVW*IIKIGLF  2876
             VLN   KLN F   EN NV +NSAKAIGC+VVN+GAQDL+EGR  L+LGL+W IIKIGL 
Sbjct  181   VLNIKAKLNQFEIVENQNVCINSAKAIGCNVVNVGAQDLMEGRVHLVLGLIWQIIKIGLL  240

Query  2875  AKVDLKFHPELFRLLEQGETLDDLFKLPVD*ILLRWFNYHLKKAGWNRKVTNFTSDIKDS  2696
             ++++L  HPEL+RLLE+GETLDDL KLPV+ IL+RW NYHLK AG  +++ NF SDIKDS
Sbjct  241   SRINLSNHPELYRLLEEGETLDDLLKLPVEQILIRWVNYHLKNAGSKKRIANFGSDIKDS  300

Query  2695  ENYIVLLNQLEPSQCSRAALNEKDLKQRAE*MLVNADKLE--CRKYVTPKAIVEGNQKln  2522
             E Y +LL+QL+P++C+ A LNE DL +RAE +L NADKL+  CRK+VTPKAIV GN KLN
Sbjct  301   EAYTILLSQLDPNRCTTAPLNESDLHKRAELVLQNADKLDPPCRKFVTPKAIVAGNPKLN  360

Query  2521  lafvanlfnNYPGLEPLTETEKAALDDWLFNSQGDREARAFALWLNSLNVDPFVNNLYED  2342
             LAFVANLFN +PGL PL+E EKAA+D+ LF  +GDREARAFALWLNSL ++PFVNNLYED
Sbjct  361   LAFVANLFNFHPGLAPLSEEEKAAIDEALFGGEGDREARAFALWLNSLGIEPFVNNLYED  420

Query  2341  LRDGIILL*AFDKVHPGCVEWKRVNKGKGL-SKFKAVENTNYVVELGKHFKYSLVGIQGA  2165
             L+DG++LL AFDK+ PG V+W +VN+ + + SKFK +ENTNY + +GK  K+SLVG+ G 
Sbjct  421   LKDGLVLLRAFDKISPGSVQWSKVNQNQPITSKFKRLENTNYAIVVGKSLKFSLVGVGGQ  480

Query  2164  DIFDGNKKLTLAIVW*LMRDNVI*ILKSVAKDGKEVTEQDMVNWANSVPGRVGKKSSMSG  1985
             DI DGNK LTLA+VW +MR +V+ ILKS++KDG++++E +MV WAN+   + G+ S M  
Sbjct  481   DIEDGNKTLTLALVWQMMRFHVLSILKSISKDGRDISEDEMVAWANNTVKKGGRDSVMDS  540

Query  1984  FKDSSLKTSLFFLDVLAGIKKGIVDYNLVTAGDNDDDAKLNAKYAISIARKLGATIFVLP  1805
             FKD  L +S+FFLD++ GIKKGIV+Y++V AG +D + K NAKY+ISIARKLGA IFVLP
Sbjct  541   FKDPKLASSIFFLDLMNGIKKGIVNYDIVAAGSDDAERKSNAKYSISIARKLGACIFVLP  600

Query  1804  EDLMEVKPKMILTFVGALM  1748
             ED+MEVKPKMILTFVGALM
Sbjct  601   EDIMEVKPKMILTFVGALM  619

Число совпадений и процент перекрывания позволяют мне предположить, что в скэффолде-514 есть ген, кодирующий фимбрин.

Я проделала те же операции для скэффолда-698, и с помощью команды BLASTX мне удалось обнаружить ген, кодирующий субъединицу гамма эукариотического трансляционного фактора инициации 2 (eukaryotic translation initiation factor 2 subunit gamma (eIF2-γ)). Эта субъединица совместно с субъединицами eIF2-α и eIF2-β образует эукариотический трансляционный фактор инициации 2 (eIF2), который стабилизирует формирование функциональной рибосомы рядом со старт-кодоном. Он связывается с гуанозин трифосфатом (GTP) и отвечает за доставку заряженной метионином инициирующей тРНК к P-сайту пред-инициирующего комплекса. Как только инициирующая тРНК свяжется со старт-кодоном AUG в P-сайте, так трансляционный фактор инициации 2 гидролизирует ГТФ (GTP) до ГДФ (GDP) и сам диссоциирует. Это позволяет большой субъединице рибосомы связаться и начать элонгацию (удлинение полипептидной цепи). Лучшая находка:

>XP_016608020.1 eukaryotic translation initiation factor 2 subunit gamma [Spizellomyces 
punctatus DAOM BR117]
 KNC99980.1 eukaryotic translation initiation factor 2 subunit gamma [Spizellomyces 
punctatus DAOM BR117]
Length=452

 Score = 676 bits (1743),  Expect = 0.0, Method: Compositional matrix adjust.
 Identities = 339/448 (76%), Positives = 382/448 (85%), Gaps = 4/448 (1%)
 Frame = -1

Query  2799  VNVDVSKLTPLSPEVISN*ATINIGTIGHVAHGKSTVVKAISGV*TVRHKTELERNITIK  2620
             +++DV++L PLSPEVIS  ATINIGTIGHVAHGKSTVVKAISGV TVR K ELERNITIK
Sbjct  4     IDIDVTQLNPLSPEVISRQATINIGTIGHVAHGKSTVVKAISGVQTVRFKNELERNITIK  63

Query  2619  LGYANAKIYECDQ--CPRPLKYKSFRSDKEVQFKCEEPNCGGTMHLKRHVSFVDCPGHDI  2446
             LGYANAKI++CD   CPRP  Y+S+RSDKE  F C+   C G M L RHVSFVDCPGHDI
Sbjct  64    LGYANAKIFKCDSEACPRPGCYRSYRSDKEEGFPCDRVGCMGRMRLLRHVSFVDCPGHDI  123

Query  2445  LMATMLNGAAVMDAAMLLIAGNESCP*P*TSEHLAAIEIMKLNHVIILQNKIDLISE**A  2266
             LMATMLNGAAVMDAA+LLIAGNESCP P TSEHLAAIEIMKL H++ILQNK+DLI E  A
Sbjct  124   LMATMLNGAAVMDAALLLIAGNESCPQPQTSEHLAAIEIMKLQHILILQNKVDLIKESAA  183

Query  2265  AE*YKSILKFINGTVAQKAPIVPISA*MKYNIDAVNEYICKKVPVPVRDFTAPARLIVIR  2086
              E ++SILKF+ GTVA  API+PISA +KYNIDA+NEYI KK+P+P+RDFTA  RLIVIR
Sbjct  184   EEHHESILKFVKGTVADSAPIIPISAQLKYNIDAINEYIVKKIPIPIRDFTADPRLIVIR  243

Query  2085  SFDVNKPGTEY*DLKGGVAGGSIL*GCLKLGDEIEVRPGIVSKDSEGKFRVRPILSRIVS  1906
             SFDVNKPG E  DLKGGVAGGSIL G LK+GDEIEVRPGIVSKDS+GK R +PI SRIV+
Sbjct  244   SFDVNKPGAEVADLKGGVAGGSILCGVLKIGDEIEVRPGIVSKDSDGKVRCKPIYSRIVT  303

Query  1905  LHTE*NHLQFAVPGGLIGVGTQIDPTVCRSDRLVGQVLGARGTLPEIYTELEITYFLLRQ  1726
             L  E N L+FAVPGGLIGVGT+IDPT+CR+DRLVGQVLGA G LP IYTELEI YFLLR+
Sbjct  304   LLAETNELKFAVPGGLIGVGTRIDPTLCRADRLVGQVLGAVGKLPAIYTELEINYFLLRR  363

Query  1725  LLGVRSTTENK*LTKVTKLAKNETLMVNIGSTTAGCKVLNVKADMAKIYLTVPCCTEIGE  1546
             LLGV+S  E+K  TKV KL+++E LMVNIGST+ G +VL+VKADMAKI L  P CTEIGE
Sbjct  364   LLGVKS--EDKKQTKVQKLSRHEVLMVNIGSTSTGGRVLSVKADMAKILLNTPACTEIGE  421

Query  1545  KVALSRRIDRHWRLIGWGKITRGVTIEP  1462
             K+ALSRRI++HWRLIGWG I RGVTIEP
Sbjct  422   KIALSRRIEKHWRLIGWGTIRRGVTIEP  449

Таким образом, в скэффолде-514 я предполагаю наличие гена, кодирующего бета-актин, и гена, кодирующего фимбрин. А для скэффолда-698 я предполагаю наличие гена, кодирующего субъединицу гамма эукариотического трансляционного фактора инициации 2 (eIF2-γ).