Практикум 8. Поиск по сходству (нуклеотидный бласт).

Задание 1. Анализ прочтенной в практикуме 6 последовательности

>unknown_sequence
CACCAGGAGTGGAGCCTGCGGCTTAATTTGACTCAACACGGGGAAACTCACCCGGGCCGGACACCGTAAGGATTGACAGATTGATAG
CTCTTTCTTGATTCGGTGGGTGGTGGTGCATGGCCGTTCTTAGTTGGTGGAGTGATTTGTCTGGTTAATTCCGATAACGAACGAGAC
TCTAGCCTACTAAATAGCTAGGTGGTTTACGTCGTCGCTTGCGATGACATCCAAGGCGTGTTCGATTAGTGTTTACATTGGTCTGCG
CGTCGTGGAGCCTCCTAAACATTTGTGCTTCTTAGAGGGACAGGTGGTTTTATTTGAAGCCACACGAGATTGAGCAATAACAGGTCT
GTGATGCCCTTAGATGTCCGGGGCCGCACGCGCGCTACACTGAAGGTATCAACGTGCATTATAACCTAGGTCGACAGACCCGGGCAA
TCCGCTGAACCACCTTCGTGATAGGGATTGAGCTTTGCAATTATCGCTCATGAACGAGGAATTCCCAGTAAGCGCGAGTCATCAGCT
CGCGTTGATTACGTCCCTGCCCTTTGTACACACCGCCCGTCGCTACTACCGATTGAATGATCTAGTGAGAAATTTGGACCA

Предполагаемый продукт гена - 18S рибосомальная РНК.

Предполагаемая таксономия - семейство Halechiniscidae

Обоснование.

В таблице последовательностей, полученных бластом, совершенно все последовательности с E value от 1e-108 до 0.0 (топ списка) кодируют 18S РНК целиком или частично.
Определение организма оказалось менее тривиальной задачей.


Просмотрев 10 последовательностей, демонстрирующих наибольшее сходство, обнаружим:
последовательность 1 (E value 0.0) - Eukaryota; Metazoa; Ecdysozoa; Tardigrada; Heterotardigrada; Arthrotardigrada; Halechiniscidae; Orzeliscus.
последовательность 2 (E value 3e-116) - Eukaryota; Metazoa; Ecdysozoa; Tardigrada; Heterotardigrada; Arthrotardigrada; Halechiniscidae; Halechiniscus.
последовательность 3 (E value 1e-115) - Eukaryota; Metazoa; Ecdysozoa; Tardigrada; Heterotardigrada; Arthrotardigrada; Halechiniscidae; Halechiniscus.
последовательность 4 (E value 5e-113)- организм не определен
последовательности 5-10 (E value 5e-113) - Eukaryota; Metazoa; Ecdysozoa; Tardigrada; Eutardigrada; Parachela; Hypsibiidae; Diphascon.
Первые три организма относятся к одному семейству (Halechiniscidae), однако всю десятку объединяет лишь принадлежность к одному типу (тихоходки). Примем во внимание продукт, который кодирует данный ген. На основе 18s рРНК строится малая субъединица рибосомы. Можно считать, что эта РНК достаточно консервативна. Это значит, что в достаточно далеких таксонах эта РНК будет похожа. Этим можно объяснить достаточное ее сходство у представителей типа. С учетом этого на мой взгляд, отличающееся на два порядка e value между топ-3 и топ-10 дает возможность достоверно утверждать, что наша последовательность была выделена из представителя семейства Halechiniscidae.

Задание 2. Сравнение списков находок последовательностей, полученных тремя разными видами бласта.

Последовательность из первого задания

параметр значение для megablast значение для blastn с максимально чувствительными параметрами значение для blastn с параметрами по умолчанию
expect threshold 10 10 10
word size 28 7 11
match/mismatch scores 1,-2 1,-1 2, -3
gap costs linear existence:2, extension: 1 existence:5, extension: 2
organism Heterotardigrada (taxid:89368)
Exclude Halechiniscidae (taxid:286673)
Heterotardigrada (taxid:89368)
Exclude Halechiniscidae (taxid:286673)
Heterotardigrada (taxid:89368)
Exclude Halechiniscidae (taxid:286673)
mucleotide collection (nr/nt) (nr/nt) (nr/nt)

1. megablast
Query cover находок существенно ниже, чем при использовании двух других алгоритмов. Это объясняется сверхвысокой длиной слова. Зато identity не ниже 86, при том что в двух других бластах этот показатель опускается до 82%.



2. Blastn с чувствительными параметрами



3. Blastn с параметрами по умоланию



В целом топ-23 списка находок значительно отличается по составу и порядку расположения для каждой пары из трех бластов. Это говорит о том, что изменение параметров поиска приводит к значимому изменению приоритетности находок.

Задание 3. Поиск гомологов белков в неаннотированном геноме

Гомологи человеческой хеликазы DDX3 (идентефикатор uniprot O00571).

Файл с результатом поиска
Белок ddx3 - человеческая РНК-хеликаза. О сохранении функции белка-находки можно судить по наличию консервативных последовательностей, единых для семейства хеликаз DEAD/H box: G(S|T)GKT, DEAD, GR.GR - связывание АТФ, SAT - линкерный участок. Аминокислоты, участвующие в связывании РНК, тоже консервативны, но не образуют последовательности, а разбросаны по одной, поэтому отследить их в белке-находке не так просто.
Все эти последовательности были обнаружены в 15 находках (у последней e-value = 1e-47). Подозрительно, что амебе понадобилось 15 РНК-хеликаз. Возможно, дело в том, что ddx3 содержит так называемые RecA-like домены, которые встречаются и в других белках, а связывание АТФ, кроме того, довольно частая задачка. Так что возможно, что некоторые из находок - гомологи по RecA-like доменам, которые используют энергию АТФ для других целей.

Гомологи человеческого гистона H3.1 (идентефикатор uniprot P68431).

Файл с результатом поиска
В геноме нашлось 8 достойных находок, в случае которых можно говорить о гомологии. Их e-value от 2e-74 до 3e-11, однако оно уменьшается из-за уменьшения длины выравнивания, при том что identity остается стабильно высокой (92-93%). В случае коротких выравниваний (38 и 37 аминокислот), возможно, можно говорить о гомологии доменов.

Гомологи человеческой Telomerase reverse transcriptase, или TERT (идентефикатор uniprot O14746).

Файл с результатом поиска
Telomerase reverse transcriptase - это субъединица белка теломеразы. Она отвечает за добавление нуклеотидов к концам теломераз хромосом.
По геному нашлось всего три выравнивания, причем ни в одном нет сколько-то длинных совпадающих фрагментов. Максимальная длина совпадающего участка - 7 нуклеотидов. Поскольку TERT - довольно сложная молекулярная машина, для сколько-то близкого по функции гомолога логично было бы ожидать лучшего результата. При этом e-value лучшего из выравниваний - 8e-23. Кажется, что при таких параметрах выравнивания сложно говорить о гомологии. Это значит, что амебафилидиум не заботится об удлинении своих теломер или использует какое-то альтернативное решение проблемы.

Задание 4. Поиск гена белка в scaffold-258 неаннотированного генома Amoeboaphelidium protococcarum

Для выбора подходящего фрагмента руководствуясь подсказками при помощи команды infoseq определили длины записей, среди которых имелись scaffolds и unplaced. Возьмем scaffold-258, его длина в 99209 п.н. нам подходит. Прогоним его через blastx по группе Fungi из банка refseq_protein.



В выравнивания попали 4 фрагмента scaffold-258, больше всего выравниваний нашлось с последовательностями thioredoxin-disulfide reductase. Все они выровнены с примерно одним участком исходной последовательности. Возьмем самый длинный выровнявшийся вариант исходной последовательности: 200-1243 нуклеотиды. Возьмем эту последовательность с запасом и прогоним ее через бласт еще раз. Среди достоверно описанных находок (не гипотетический белок) все принадлежали белку thioredoxin-disulfide reductase из разных организмов. Таким образом, был обнаружен ген белка thioredoxin-disulfide reductase в scaffold-258 генома Amoeboaphelidium protococcarum. Усредненные начало и конец гена - 233-1240.

Задание 5. Построение карты локального сходства геномов двух бактерий

Были взяты геномы следующих бактерий:
DEFINITION Rickettsia rickettsii str. Iowa, complete genome.
ACCESSION NC_010263

DEFINITION Rickettsia prowazekii str. Madrid E chromosome, complete genome.
ACCESSION NC_000963
Выранивание при помощи megablast и blatn давали по сути одну картину с той разницей, что на карте, полученной при более мягких параметрах, было больше шума.



Из картинки видно, что геномы очень похожи. Основное отличие - это перестройки в области 615K-680K (по координатам генома Rickettsia rickettsii). Эти перестройки включают несколько инверсий и делеций (на карте имеeтся 4 фрагмента, смещенных относительно главной прямой выравнивания - делеции. Притом 3 из них перевернуты - инверсия). Кроме этого, геном Rickettsia prowazekii несколько короче.