Определение функции продукта и таксономии нуклеотидной последовательности

После анализа хроматограмм в практикуме 6 была получена нуклеотидная последовательность. Стоит сказать, что в ней есть один нуклеотид, который я так и не смогла определить (был только в одной хроматограмме и очень плохо). С ней был запущен blastn.

pr8
pr8

Было получено 100 результатов с per ident от 99,14 до 89,44. Интересно, что организмы, из которых были получены последовательности, оказались достаточно далекими друг от друга. Но также было понятно, что последовательность кодирует белок histone h3. Убедиться в этом можно, посмотрев на картинки выше.
Histone H3 - белок, характерный для всех эукариот и обладающий высокой консервативностью.
Благодаря вкладке Taxonomy и сайту marinespecies удалось немного разобраться в таксономии организмов из 6 самых блихзких результатов. Это были Brada inhabilis, Chaetozone setosa Malmgren, Onuphis iridescens и Ophelia limacina.
Оказалось, что родство этих животных заканчивается на классе - все они относятся к полихетам. Но при этом их нуклеотидные последовательность очень похожи (видимо, как раз из-за высокой консервативности белка).

Score	Expect	Identities	Gaps	Strand
630 bits(341)	1e-176	344/347(99%)	0/347(0%)	Plus/Plus
Query  3    ACCGGAGGCAAGGCCCCCAGGAAGCAGCTGGCCACCAAGGCAGCTCGCAAGAGTGCCCCA  62
            ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct  1    ACCGGAGGCAAGGCCCCCAGGAAGCAGCTGGCCACCAAGGCAGCTCGCAAGAGTGCCCCA  60

Query  63   GCAACTGGTGGAGTGAAGAAGCCCCATCGTTACAGGCCTGGCACAGTTGCTCTGCGTGAG  122
            ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct  61   GCAACTGGTGGAGTGAAGAAGCCCCATCGTTACAGGCCTGGCACAGTTGCTCTGCGTGAG  120

Query  123  ATCCGTCGTTACCAGAAGAGCACAGAGCTGCTGATCCGCAAGCTGCCATTCCAGCGTCTG  182
            ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct  121  ATCCGTCGTTACCAGAAGAGCACAGAGCTGCTGATCCGCAAGCTGCCATTCCAGCGTCTG  180

Query  183  GTGCGTGAGATCGCCCAGGACTTCAAGACTGACCTGCGCTTCCAGAGCTCTGCTGTCATG  242
            ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct  181  GTGCGTGAGATCGCCCAGGACTTCAAGACTGACCTGCGCTTCCAGAGCTCTGCTGTCATG  240

Query  243  GCTTTGCAGGAGGCTAGCGAGGCTTACCTGGTTGGCCTGTTCGAGGACACCAACTTGTGC  302
            ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct  241  GCTTTGCAGGAGGCTAGCGAGGCTTACCTGGTTGGCCTGTTCGAGGACACCAACTTGTGC  300

Query  303  GCCATCCACGCCAAGCGTGTCACTATTATGCCNAAGGATATGTCATA  349
            ||||||||||||||||||||||| || ||||| ||||||||||||||
Sbjct  301  GCCATCCACGCCAAGCGTGTCACYATYATGCCTAAGGATATGTCATA  347

Можно посмотреть на выравнивание с последовательностью с самым высоким процентом идентичности, она принадлежит Brada inhabilis. Несовпадение всего в трех нуклеотидах, но и в них все не так уж и плохо, потому что Y это С или Т. Несовпадение в других выравниваниях несколько выше.

Таким образом, я считаю, что это однозначно histone H3 какой-то полихеты, скорее всего Brada inhabilis.

Сравнение разных бластов

1.Cравнение бластов последовательности histone h3.
Пробуя разные варианты ограничения по таксономии и E-value, я пришла к выводу, что самым адекватным является поиск:

pr8

megablast blastn default blastn sensitive
Длина слова 28 11 7
Match/mismatch 1,-2 2,-3 1,-1
Найденных последовательностей 36 44 44

pr8 pr8 pr8

Изображения в порядке, как в таблице. Можно заметить, что blastn, как дефолтный, так и чувствительный, оказался для поиска несколько лучше, чем megablast, потому что с помощью него были найдены несколько очень похожих на исходную последовательностей, которые megablast попросту не обнаружил. Но зато blastn за счет маленькой длины слова выдал пару явно мусорных последовательностей, которые легко откидываются установкой E-value.

2.Сравнение бластов Ecolivirus, которая была получена в прошлом практикуме.

megablast blastn default blastn sensitive
Длина слова 28 11 7
Match/mismatch 1,-2 2,-3 1,-1
Найденных последовательностей 11 45 62

pr8 pr8 pr8

Все три программы нашли одинаковое количество очень похожих друг на друга последовательностей, но blastn нашел еще и последовательности, которые имеют короткий идентичный участок/участки. Можно предположить, что это участки высокой консервативности. При этом чувствительный blastn справился с этой задачей лучше.

Наличие гомологов трех белков в неаннотированном геноме

Искали гомологичные белки в Amoeboaphelidium protococcarum.

H31_HUMAN. Выходной файл.
Это первая форма histine h3. Как я уже писала выше, это достаточно консервативный белок для всех эукариот, и у данного организма тоже есть очень похожая последовательность. Их Identity 93%, из чего можно сделать вывод, что они гомологичны.

AT1A1_HUMAN. Выходной файл
Альфа 1 субъединица Na+/K+ ATPase. Identity очень низкая - около 40%. Но если посмотеть повнимательнее, то можно заметить, что имеются короткие идентичные участки (5 участков по 10-15 нуклеотидов каждый). На юнипрот написано, что этот белок должен выполнять каталитическую функцию ( не только структурную), поэтому можно предположить, что это гомологичные домены.

CDC37_HUMAN. Выходной файл
Хотела поискать какой-нибудь шаперон. Видимо, этого конкретного нет.

Поиск гена белка в контиге

Была взята неаннотированная сборка Amoeboaphelidium protococcarum, которая лежит на кодомо. После н-ного перебора контигов был выбран unplaced-5.

pr8

Этот контиг содержит ген, кодирующий альфа цепь тубулина. Ура.