Всего было 20000 находок, что соответствует максимальному числу, которое можно было выставить в параметрах. E-value лучшей находки - 0.0(первые пять находок имеют такой же), я взяла 7 результат, с E-value = 2e-179 и Querty cover составляющей 100%, а худшей — 4e-100 (но тут, впрочем, query cover составлет 85%, что достаточно не плохо). Все находки являются нуклеотидными последовательностями эукариот.
Большое число находок связано с консервативностью аминокислотной последовательности этого белка в различных группах эукариот.
Для двух лучших найденных последовательностей (Polycirrus medusa и Polycirrus carolinensis) было построено выравнивание с исходной (она первая в выравнивании) в jalview (проект [jvp] доступен по ссылке). Результат можно видеть на Рис.2.
|
|
Eсли учитывать тот факт, что среди первых 10 находок 2 относились к одному и тому же роду, а именно — Polycirrus medusa, то можно сказать, что последовательность пренадлежит к роду Polycirrus .
Polycirrus medusa показана на рисунке сбоку
Итоговая предполагаемая таксономия (до рода): Eukariota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Annelida; Polychaeta; Scolecida; Terebellida; Terebellidae; Polycirrus.
Было проведено сравнение трех алгоритмов — blastn (somewhat similar sequences), discontigious megablast (more dissimilar sequences), megablast (highly similar sequences).
Алгоритм поиска | Database | Max target sequences | Expect treshold | Word size | Max matches in a query range | Match/Mismatch scores | Gap costs |
blastn | Nucleotide collection (nr/nt) | 100 | 10 | 11 | 0 | 2;-3 | 5;2 |
discontigious megablast | Nucleotide collection (nr/nt) | 100 | 10 | 11 | 0 | 2;-3 | 5;2 |
megablast | Nucleotide collection (nr/nt) | 100 | 10 | 28 | 0 | 1;-2 | linear |
Параметры | blastn | megablast | discontiguous megablast |
Число находок | >100 | >100 | >100 |
Max score | 439 | 531 | 531 |
E-value | 5е-119 | 8е-147 | 8e-147 |
Identity | 79% | 79% | 79% |
Query cover | 97% | 98% | 98% |
Выводы:
Мною были выбраны белки HSP7C_HUMAN, TERT_HUMAN, CISY_HUMAN. Их последовательности я скачала и объединила в единый файл формата [fasta].
Я создала локальную базу данных на основе генома Amoeboaphelidium protococarum, записанного в файле X5.fasta, следующим образом:
makeblastdb -in X5.fasta -dbtype nucl
tblasn — это программа, которая ищет по нуклеотидному банку последовательностей те, что кодируют белки, подающиеся на вход. Ей я и воспользовалась:
tblastn -query inprot.fasta -db X5.fasta -out blast.out -outfmt 7
Выдача алгоритма для трёх выбранных белков приведена на рисунках ниже.
Белок | Выдача tblastn |
HSP7C_HUMAN | |
Белок HSP7C[1] — это белок теплового шока. Репрессор активации транскрипции. Шаперон. Является компонентом PRP19-CDC5L комплекса, который формирует внутренню часть сплайсосомы. Этот белок необходим для активации сплайсинга пре-мРНК.
Может выполнять структурную функцию в сборке сплайсосомы, поскольку контактирует со всем остальными ее компонентами. Связывает бактериальные липополисахариды и опосредует ЛПС-идуцированную воспалительную реакцию.
В результате работы tblastn мы получили 22 находки. Первая из них, scaffold-199, представляется достаточно качественной. E-value 0.0, процент покрытия 78.09%. Последний показатель может показаться не очень высоким, но посмотрев отдельно на выравнивание (для этого scaffold-199 нужно было извлечь из файла генома), можно понять, что несовпадения сконцентрированы в конце выравнивания, поэтому, как минимум, здесь можно говорить о гомологии доменов с сохранением функции. | |
TERT_HUMAN | |
Белок TERT_HUMAN[2] — это обратная транскриптаза теломеразы. Теломераза — рибонуклеопротеиновый фермент, необходимый для репликации концов хромосомы у большинства эукариот. Активен в прогениторных и раковых клетках, в отличие от обычных соматических, где практически не действует. Является
участником процесса элонгации теломер, при этом действуя как обратная транскриптаза: добавляет простые повторные последовательности к концам хромосомы, копируя образец с РНК-компонента фермента. (Катализирует РНК-зависимое удлинение 3'-конца хромосомы с помощью 6-нуклеотидной последовательности 5'-TTAGGG-3'). Каталитический цикл включает связывание праймера, удлинение праймера и высвобождение праймера по достижению конца РНК-затравки или же перенос возникающего продукта с его последующим удлинением. Играет важную роль в процессах старения и предотвращения апоптоза.
На выдаче имеем 3 находки. Лучшая из них — scaffold-17 с E-value 8e-23 и Query cover 26.58%. Посмотрим на выравнивание. Раскраска BLOSUM62 By Conservation. Выравнивание, конечно, не самого высокого качества, но всё же встречаются участки (100-134, 381-402 и другие), на которых прослеживается сохранение мотивов. В этом случае, думаю, ответ на вопрос о наличии гомологов будет условно положительный. Вполне вероятно, что отдельные домены белка, закодированного в каком-то из генов scaffold-17, сохранили схожую с TERT_HUMAN функцию. | |
CISY_HUMAN[3] | |
Белок CISY_HUMAN — это белок митохондриальной цитрат-синтазы.
Итак, он принимает участие в метаболизме углеводов, а именно — в цикле трикарбоновых кислот на стадии получения изоцитрата из оксалоацетата.
tblastn выдал 6 находок. Лучшая из них — scaffold-693 с E-value 2e-180 и Query cover 69.5%. Интересно отметить, что с ней по всем параметрам очень схожа третья по счёту находка scaffold-157, только у нее BitScore на единицу меньше, а E-value чуть выше и составляет 5e-180. Также внутри обоих скэффолдов было по две находки (соответственно, 2-ая и 4-ая). Находки из двух разных скэффолдов имели одинаковые по сути выравнивания с последовательностью CISY_HUMAN, а различались рамкой считывания при формальной трансляции нуклеотидной последовательности скэффолда в последовательность аминокислот. Выравнивания хорошего качества, поэтому, как мне кажется, здесь можно вполне утверждать наличие гомолога. Для отдельно взятого скэффолда (693-ий или 157-ой) первое выравнивание соответствует одной части белка, гомологичного CISY_HUMAN, а второе — другой. Причём эти части в последовательности CISY идут подряд, а в исследуемом геноме разнесены в разные области скэффолда. | |
Для выполнения задания я выбрала из генома Amoeboaphelidium protococarum скэффолд scaffold-693. Предварительно была получена информация о длинах контигов:
infoseq X5.fasta -only -name -length
А затем извлечена последовательность подходящего по длине scaffold-693:
seqret X5.fasta:scaffold-693 -out 693.fasta
По этой последовательности был запущен алгоритм megablast с ограничением на таксон Amoeboaphelidium protococarum. Результаты можно видеть на Рис. 5
По координатам участков и аннотации последовательностей в находках можно понять, что за гены содержатся в scaffold-693. Один из найденых участков участвует в кодировании 28S-рРНК, а второй — является частью спейсерного участка, функция которого предположительно заключается в обеспечении выского уровня транскрипции в связанных генах.