Практикум 8. Задания по BLAST

blast

1. Таксономия и функция прочтённой нуклеотидной консенсусной последовательности (из практикума 6)

※ Предполагаемая функция или аннотация последовательности
Лучшая находка (score 1190, per. ident. 99,85%) говорит о том, что это белок с AC (GenBank) = GU672524.1 - "Polycirrus medusa voucher BIOUG:WS0178 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial".
Цитохромоксидаза - фермент класса оксидоредуктаз, локализована во внутренней мембране митохондрий. Это конечный компонент цепи дыхательных ферментов, переносящий электроны от цитохрома с на молекулярный кислород.
※ Предполагаемая таксономия
Annelida ↣ Polychaeta ↣ Terebellida ↣ Terebellidae ↣ Polycirrus ↣ Polycirrus medusa
Таксономия для большинства находок останавливается на Polycirrus sp., но лучшая находка (идентичность 99,85% - выравнялось без гэпов 661/662) говорит про Polycirrus medusa, и я склонна ей верить.
Вообще, если посмотреть на этого червя, во что угодно поверишь...

животное


※ Обоснования своих решений
Алгоритм BLASTn лучше всего подойдет, поскольку он сравнивает заданную нуклеотидную последовательность с другими последовательностями, а мы как раз ищем ген, фрагментом которого она (эта последоватеьлность) является.
Я искала по базе "Nucleotide collection" среди "Others", потому что вообще не понятно, что бы это мог быть за фрагмент.
Из тех же соображений среди программ выбрала "blastn" (somewhat similar sequences).
Параметры поиска: длина слова 11, число находок на экране 100, порог 10.
Поиск занял 100 лет.
Находки супер. Идентичность должна быть высокой (все-таки нуклеотидов меньше, чем аминокислот), но в данной ситуации все находки (по крайней мере, первые 100 при заданных параметрах поиска) говорят о последовательности, кодирующей один и тот же белок - первую субъединицу цитохром оксидазы.

tree

Как решить, к какому уровню таксономии – виду, роду, семейству, ... – возможно отнесение находки?
Для этого я зашла в раздел Taxonomy, порадовалась, и построила дерево находок, и еще порадовалась.

tree

2. Сравнение списков находок нуклеотидных последовательностей тремя разными вариантами blast

Оригинальность метода - в том, что на моей странице никто таких таблиц пока не делал.
Все запросы, описанные ниже, были проведены с максимальным числом находок равным 250, кроме двух последних запросов для вируса, где потребовалось поднять возможное количество находок до 500. Поиск для той же последовательности проводился в рамках семейства Terebellidae, исключая род Polycirrus (как? см скрин ниже).

taxons

Таблица 1. Для той же последовательности
колесо сансары алгоритм длина слова Match/Mismatch Scores число находок дерево находок
1 megablast 20 1,-3 91 скачать .pdf
2 megablast 28 1,-4 14 скачать .pdf
3 megablast 32 1,-2 12 скачать .pdf
1 blastn default 11 2,-3 143 скачать .pdf
1 blastn special 7 1,-3 158 скачать .pdf

Для последовательности, кодирующей белок вируса (Major coat protein [Escherichia phage Lilleven]), поиск происходил также среди семейства, исключая род данного вируса.

taxons

Таблица 2. CDS
колесо сансары алгоритм длина слова Match/Mismatch Scores число находок дерево находок
1 megablast 20 1,-3 183 скачать .pdf
2 megablast 28 1,-4 0
3 megablast 32 1,-2 0
4 (extra) megablast 24 1,-2 13 скачать .pdf
1 blastn default 11 2,-3 341 скачать .pdf
1 blastn special 7 1,-3 373 скачать .pdf

Поиск с помощью megablast для вируса показал, что при минимальных m/m решающим фактором для числа найденных последовательностей служит длина слова.
Цена деления шкалы длин слов у BLAST для megablast равна 4. Параметр Match/Mismatch Scores изменяется более плавно (субъективная оценка).
Мне захотелось визуализировать полученные данные, поэтому я построила графики для 2 и 1 таблиц соответственно, где по оси х - номер испытания, по оси у - числа (просто числа, так можно показать и число находок, и размер слова на одном графике).

taxons

Можно сделать вывод, что шаг в одно деление при изменении длины слова намного сильнее влияет на число находок, чем изменение параметра Match/Mismatch Scores.

3. Проверка наличия гомологов трех белков в неаннотированном геноме

Дано: неаннотированный геном Amoeboaphelidium protococcarum.
Найти: гомологов трех белков этого организма (среди других геномов эукариот).
Решение: tblastn.
Ответ:

Таблица 1. Гомологи белков
protein output notes
actin 17, best identity 94%, 0 гэпов, битскор лучшей находки 1939, покрытие 100% выдача актин! двигательный белок! есть у всех эукариот с актин-миозиновым комплексом, нужен для движения (например, выворачивания колоний динофлагеллят). Данные (в т.ч. покрытие)подтверждают высокую консервативность актина
BTK 71, best identity 29%, 14 гэпов, битскор лучшей находки 252, покрытие 98,2% выдача btk - киназа, реагирующая на содержание в км PIP3, играет важную роль в фосфоинозитидной сигнализации при делении и созревании тромбоцитов, B-лимфоцитов и некторых других клеток; скорее всего, совпадают отдельные домены (эти домены до некоторой степени изменчивы и относительно друг друга). известно, что специфичность к субстрату обеспечивает наличие 3х петель между бета-листами 1-2, 3-4 и 6-7 (все они представлены доменом PH). Можно сделать вывод об изменчивости каталитического домена, который есть у всех киназ суперсемейства AGC, но, похоже, сильно варьирует у разных организмов
cytochrome b5 reductase 24, best identity 33%, 16 гэпов, битскор лучшей находки 309, покрытие 98,2% 95,6%выдача NADP-зависимый фермент, превращающий метгемоглобин в гемоглобин; содержит коэнзим FAD и катализирует реакцию
NADH + H+ + 2 ferricytochrome b5 = NAD+ + 2 ferrocytochrome b5
Похоже, здесь снова имеет место совпадение отдельных доменов.
Все описанные выше белки легли на скэффолд с очень высоким покрытием.


4. Какой-нибудь ген белка в одном из контигов

Я взяла скэффолд-456 из сборки генома Amoeboaphelidium X5, длина скэффолда - 11344 пар нуклеотидов.
Параметры запроса в blastx:

query

Таблица результатов:

table

Наибольшим процентом идентичности (44.48%) и наименьшим E-value (2e-55 что практически ноль) обладает uncharacterized protein SmJEL517_g02954 - некоторый белок, найденный у Synchytrium microbalum, найденного на пыльце ели.
Ниже показано, что выравнивание получилось действительно самое эффективное:

alignment

alignment

Было бы интересно сделать вывод об эволюции белка в связи с его функциями у разных организмов, но предполагаемой функции пока нет ¯\_(ツ)_/¯.

5. Карта локального сходства геномов двух бактерий