Поиск по сходству BLAST

Задание 1. Определение таксономии и функции прочтённой последовательности из практикума 6.

Для поиска использовалась консенсусная последовательность, полученная в 6 практикуме. Применялся алгоритм blastn по базе Nucleotide c параметрами по умолчанию, чтобы найти хоть сколько-нибудь похожие последовательности. Hittable выдачи. первые 100 построенных программой выравниваний имеют e-value 0.0, процент идентичности выше 80%, а у большинства больше 90. Эта последовательность кодирует 1 субъединицу цитохром-оксидазы брюхоногого моллюска Alderia Modesta. Но поскольку в выдаче встречаются и белки других организмов, была проведена сессия поиска алгоритмом megablast, позволяющим найти наиболее близких гомологов, по той же базе с параметрами по умолчанию.
На изображении вкладка Taxonomy из выдачи алгоритма, видно что все 100 находок принадлежат кладе Sacoglossa, при этом 94 лучших семейству Limapontiidae, среди представителей других семейств 4 находки для Elysia ornata и по 1 для разных видов рода Thuridilla. Напрашивается вывод о том, что последовательность принадлежит передставителю этого семейства, 87 лучших находок со счётом 876-878 принадлежат виду Alderia modesta. Ещё 7 находок со счетами 582-608 принадлежат моллюскам рода Placida, но этих находок на порядок меньше, и счёт для них значительно ниже, значит можно с высокой уверенностью отнести эту последовательность к виду Alderia modesta.

Задание 2. Сравнение списка находок нуклеотидных последовательностей тремя разными вариантами BLAST.

Последовательность 1 субъединицы цитохром-оксидазы очень консервативна, поэтому очень различающихся результатов ждать не приходится. Поиск проводился с использованием 3 разных алгоритмов: blastn с параметрами по умолчанию, megablast с параметрами по умолчанию и blastn с параметрами, которые, как мне кажется, должны повысить чувствительность поиска: word size=7, Match/Mismatch Scores=4,-5, Gap Costs=Existence: 12 Extension: 8, чтобы в поиск попали другие находки выдача была ограничена семейством Limapontiidae и из неё был исключён род Alderia sp. Единственный параметр, который отличался от дефолтных во всех трёх алгоритмах - число выдаваемых последовательностей, чтобы поиск не ограничивался 100 последовательностями и можно было понять, отличается ли число выдаваемых последовательностей для разных алгоритмов.
В находках содержатся только представители семейства и не содержатся представители рода Alderia, находок для последовательности цитохром-оксидазы моллюска с помощью изменённого blastn больше на 9 штук. Выдачи особо не отличаются, просто в каждой из них разное количество последовательностей, и находка Ercolania felina megablast'ом выдаётся 18, а другими алгоритмами 15. К тому же megablast первыми 17 последовательностями считает те, которые принадлежат Placida dendritica и 19 выдаёт Olea hansineensis, которая blastn считается 22. Оба варианта blastn выдают второй последовательность организма Aplysiopsis minor. В общем, различия наблюдаются в порядке и количестве последовательностей в выдаче, очевидно что тот алгоритм, который в целом выдаёт больше последовательностей, находит те последовательности, которые другие алгоритмы не находят.
Таблица с количеством последовательностей, найденных разными алгоритмами

АлгоритмЧисло находок для последовательности из 6 практикумаЧисло находок для CDS вируса из предыдущего практикума
blastn с параметрами по умолчанию95865
blastn с изменёнными параметрами104977
megablast2469

Для поиска по CDS вируса была выбрана последовательность, кодирующая элемент его оболочки, предположительно малую субъединицу терминазы. Три используемых алгоритма были теми же. Верхние последовательности выдачи для megablast и blastn с параметрами по умолчанию не отличаются, а для подкрученного blastn порядок немного изменён, первая в выдаче двух других алгоритмов последовательность находится где-то далеко, а последовательности, которые в выдаче других алгоритмов в первые 10 не входят, вошли в первые 10. Оба варианта blastn находят совпадения только с клеточными организмами, причём как с бактериями (и далеко не только Клостридиями, которые поражаются этим фагом, но и абсолютно неродственными), так и с эукариотическими организмами. Обычный blastn находит крайне мало последовательностей фагов, по одной находке для каждого фага, геном которого попал в выдачу, тогда как для бактерий число находок достигает нескольких сотен, а для эукариот десятков. Blastn с изменёнными параметрами - то же самое, причём для Myoviridae, к которым принадлежит фаг, чей ген мы использовали, находок всего 10, а для Siphoviridae - 19 (возможно, связано с количеством записей для каждой клады вирусов в базе). Megablast уже находит только вирусные последовательности и последовательности Клостридий, которые этим фагом заражаются, и вообще находок для него меньше. Покрытие больше 90% для почти всех находок megablast, потому что он, если я правильно поняла, находит локально схожие участки. Варианты blastn выдают даже те последовательности, покрытие с которыми очень мало.

Задание 3. Поиск гомологов белков в неаннотированном геноме.

Для выполнения задания я взяла три белка, которые, как мне казалось, должны присутствовать у всех эукариот: гамма-субъединицу тубулина, гистон H3 и топоизомеразу 1. В неаннотированном геноме я искала гомологи белков Saccharomyces cerevisiae, потому что геном принадлежит грибоподобному организму и логично предположить, что ближе всего к его белкам окажутся белки грибов, а дрожжи наиболее исследованные представители Fungi. Последовательности белков дрожжей были найдены в UNiProt по ключевым словам - названию организма и английским названиям белков, а потом скачаны в формате fasta. Использвоался алгоритм tblastn, потому что его обычно применяют для поиска белков в геноме. Для поиска гомологов использовались следующие команды:
makeblastdb -in X5.fasta -dbtype nucl
tblastn -query P53378.fasta -db X5.fasta > gamma_tubulin.out (для других белков по аналогии)
Чтоб понять, можно ли говорить о гомологичности белков, я обращала внимание на длину построенных выравниваний, их вес, E-value, процент идентичности.
Гамма-субъединица тубулина, тубулин - структурный белок микротрубочек, специфичный для эукариотических организмов, входит в состав центра организации микротрубочек, а значит, участвует в их сборке, поддержании формы клетки, делении и т.д. Выдача для тубулина содержит 6 находок, последняя из которых имеет крайне маленький вес (29,6) и слишком большое Е-value, что не позволяет считать её достоверной, к тому же она очень короткая. Другие находки имеют приемлемую длину и приемлемые значения веса и E-value, но обладают низким процентом идентичности (не выше 39%), поэтому нельзя утвержать, что в геноме есть гены, кодирующие гомологичные белки, выполняющие те же функции.
Гистон H3 входит в состав нуклеосомы, то есть помогает ДНК скрутиться в хроматин, регулируя тем самым её транскрипцию, репликацию и т.д. Выдача для гистона сожержит находок, четыре последних имеют слишком маленький вес и слишком большую вероятность оказаться случайными, к тому же они короткие. А вот первые две имеют одинаковый вес (232) и E-value (4е-70), приемлемую длину и высокий процент идентичности (88%), а значит моэно сделать вывод, что гомолог гистона Н3 у организма есть и вполне вероятно что он выполняет ту же функцию. Возможно, его ген был дуплицирован, потому что два участка генома одинаково успешно выровнялись на последовательность белка, или же в сборке генома набор ДНК диплоидный, что сильно более вероятно. Гистон является наиболее консервативным из всех трех выбранных мной белков.
Топоизомераза 1 разрезает связи между цепями ДНК, тем самым раскручивая двойную спираль и делая возможными репликацию, трансляцию и другие процессы. Так же она обладает репаративной активностью и способна вносить одноцепочечные разрывы. Выдача для топоизомеразы содержит всего 3 выравнивания, последнее из которых имеет ужасно большой E-value и маленький вес, то есть является случайным. Два других имеют 0 E-value и вес 585-582, нормальную длину и высокий процент идентичности (у лучшего 49%), значит, в геноме присутствуют гены гомологов топоизомеразы, что неудивительно, учитывая её необходимость в клеточных процессах. Сборка, скорее всего, диплоидная, поэтому находки две (как и для гистона), а разные веса и процент схожести они могут иметь из-за вариативности алллеля, не влияющей на выполнение функции белка.

Задание 4. Поиск гена белка в контиге.

В геноме мексиканской амбистомы белки неаннотированы, поэтому я взяла тот же контиг, который в прошлом практикуме предлагался к скачиванию. Поиск проводился при помощи blastx, тк мы ищем транскрипт нуклеотидной последовательности в протеомах, и был ограничен таксоном Chordata. На изображении видно, что большинство белков в выдаче имеют статус PREDICTED, что не позволяет уверенно утверждать их функцию, или retrotransposone-like, что может указывать на их принадлежность вирусам. Единственный белок из 100 последовательностей в выдаче, который не является вирусным и имеет установленную функцию - receptor-type tyrosine-protein phosphatase gamma-like, принадлежит семейству тирозиновых фосфатаз - сигнальных молекул, регулирующих такие клеточные процессы, как клеточный рост, митоз, дифференциация, онкогенная трансформация. Последовательность принадлежит лучепёрой рыбе Ханос (Chanos Chanos).

Здесь изображено первое выравнивание с этим белком. Всего выравниваний построено 7 и их общая длина 2624 аминокислоты, общий вес 829 (максимальный вес отдельного выравнивания - 240), процент покрытия 8 (неудивительно, ведь мы выравниваем один белок на целый контиг длиной около 35 000 пар нуклеотидов), E-value 8е-89, то есть достаточно низкий, процент идентичности 47,45%. Причина того, что белок выровнялся не полностью, может быть в гомологичности отдельных доменов белков или в присутствии в гене интронов. Кроме того, хвостатые амфибии и лучепёрые рыбы не являются близкородственными и за время с тех пор, как эти группы разошлись, могло накопиться большое количество мутаций.