Учебный сайт Птицыной Елены

Cтудентки первого курса факультета биоинженерии и биоинформатики Московского государственного университета имени М.В. Ломоносова

Семестр 3, практикум 8

Назад на учебную страницу Птицыной Елены

Нуклеотидные банки данных

В этом практикуме мы учились использовать нуклеотидные банки данных.

Задание 1.

Таксономия и функция определялись для нуклеотидной последовательности cons.fasta, полученной в практикуме 6. Для этого использовался blastn c алгоритмом поиска megablast, оптимизированным для поиска очень близких гомологов, длина слова 28, поиск по базе nt (Nucleotide collection), так как это очень обширная, объединяющая база (в другой базе, например, Refseq, нужного организма может просто не быть).

Результаты представлены на странице.

100 первых находок BLAST идентифицируют последовательность как фрагмент последовтельности, кодирующей 1 субъединицу цитохромоксидазы (CO1).

503 балла и больше набрали находки, относящиеся к роду Modiolus из брюхоногих моллюсков. Почти все они принадлежат Modiolus modiolus, некоторые - Modiolus kurilensis, 4 находки относятся к Modiolus comptus и 1 находка к Modiolus nipponicus. Нижнюю часть списка образуют виды рода Bathymodiolus, в основном Bathymodiolus thermophilus, в некоторых случах - Bathymodiolus securiformis (1 находка), Bathymodiolus septemdierum (1 находка), Bathymodiolus tangaroa (1 находка), Bathymodiolus sp. (1 находка). Между ними вклинивается Modiolus rumphii со счётом 457 баллов. Последним в списке идёт другой вид Брюхоногих моллюсков - Gigantidas crypta (427 баллов).

Далее, выбрав определенные последовательности (например, все первые 100), можно перейти на вкладку Таксономия и убедиться в том, что все 100 первых находок принадлежат семейству брюхоногих моллюсков Митилиды (Mytilidae), больше всего находок в роду Modiolus и наибольшим весом обладают выравнивания с последовательностями Modiolus modiolus, и их больше всего (рис.1).

taxonomy
Рисунок 1. Таксономия 100 первых находок BLAST.

Открыв название вида, видим страницу, содержащую полное таксономическое положение Modiolus modiolus (рис.2): cellular organisms; Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Mollusca; Bivalvia; Pteriomorphia; Mytiloida; Mytiloidea; Mytilidae; Modiolinae; Modiolus (https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=40256).

Modiolus modiolus
Рисунок 2. Modiolus modiolus (https://en.wikipedia.org/wiki/Modiolus_modiolus#/media/File:Modiolus_modiolus_001.jpg)

Итак, можно сделать вывод: введенная последовательность вероятнее всего 1 субъединицу цитохромоксидазы (CO1) моллюска Modiolus modiolus.

Также есть возможность посмотреть дерево, открыв ссылку Distance tree of results (рис. 3).

taxonomy
Рисунок 3. Дерево.

При нажатии на круги клады дерева отображаются более детально:

taxonomy
Рисунок 4. Более детальное изображение клады.

Задание 2.

В этом задании нам надо было сравнить результаты работы BLAST для 3 алгоритмов.

Рисунок 5. Параметры алгоритмов. Потом я заменила количество находок с 10000 до 5000.

Консенсунсная последовательность из практикума 6: cons.fasta

Сравнение некоторых результатов работы ( страница) показано ниже (Таблица 1).

Таблица 1. Некоторые характеристики результатов работы алгоритмов BLAST для первой последовательности.
megablast blastn blastn чувствительный
Число находок для посл.1 415 4989 4996
Max Score для посл.1 1170-58,4 1148-246 742-282
Количество находок с нулевым E-value 72 76 48
E-value для одной из находок 5e-148 2e-176 1e-129
Query cover для одной из находок 96% 97% 97%

Megablast находит меньше последовательностей, чем blastn с параметрами по умолчанию и чувствительный, поскольку предназначается для поиска очень близких последовательностей, а blastn с параметрами по умолчанию находит меньше последовательностей, чем blastn чувствительный, что логично. По тем же причинам убывает верхняя граница Max Score, а нижняя поднимается. Чувствительность алгоритмов лучше всего иллюстрируется сравнением E-value для одной находки: чем меньше E-value, тем чувствительнее алгоритм (см. пример в таблице для Modiolus comptus isolate MoC-2 voucher LSGB41210-2 cytochrome c oxidase subunit I (COI) gene, partial cds; mitochondrial (GQ480313.1)).

Одна из CDS из практикума 7: cds.fasta

Параметры опять были взяты теми же. Находок было значительно меньше, они представлены на странице, обобщены в таблице 2.

Таблица 2. Некоторые характеристики результатов работы алгоритмов BLAST для второй последовательности.
megablast blastn blastn чувствительный
Число находок 46 112 -
Max Score 4488-248 4383-46,4 -
Количество находок с нулевым E-value 34 45 -
E-value для одной из находок 9e-61 4e-91 -
Query cover для одной из находок 76.81% 72.28% -

В третьем столбце значения не приведены, так как программа говорила о превышении лимита времени анализа. Таким образом, мы убеждаемся в том, что для оптимизированного поиска в BLAST с применением высокочувствительных алгоритмов необходимо выставлять ограничения на Таксономию.

Выставив ограничения на Fuselloviridae, мы результаты (страница) , обощённые в таблице 3.

Таблица 3. Некоторые характеристики результатов работы алгоритмов BLAST для второй последовательности c ограничением на таксон.

megablast blastn blastn чувствительный
Число находок 36 45 47
Max Score 4488-248 4383-28,3 2808-29,4
Количество находок с нулевым E-value 33 35 37
E-value для одной из находок 3e-66 1e-96 8e-162
Query cover для одной из находок 19% 52% 64.02%

Здесь опять иллюстрируется чувствительность алгоритмов (см. пояснения к первой последовательности, правда, между blastn по умолчанию и blastn чувствительный наблюдается нарушение строгого подъёма нижней границы Max Score, но разница незначительная). Иногда одна и та же последовательность имеет не просто различающееся, а то ненулевое, то нулевое E-value (например, у Sulfolobus spindle-shaped virus Kamchatka-1, complete genome (AY423772.1) по megablast E-value ненулевое, а по другим двум алгоритмам нулевое, причём в случае blastn чувствительного она не последняя в списке находок с нулевым E-value - это очень значимое отличие, так как исследователь, визуально анализируя выдачу, в случае ненулевого E-value может просто временно отсечь в рассуждениях эту последовательность - но вдруг она важна?).

На небольшом числе находок удобно проанализировать положение отдельных находок. В верхней части списки совпадают (хотя так бывает не всегда - например, для первой последовательности порядок сверху слегка различался), а далее начинаются перестановки, появления новых находок, и т.д. (страница).

Задание 3.

Для нахождения гомологов белков из данной сборки X5.fasta мы сначала скопировали /P/y18/term3/block2/X5.fasta в свою папку, потом ввели команду makeblastdb -in X5.fasta -dbtype nucl -out sb . Далее зашли на сайт Uniprot, ввели названия 3 интересных белков, которые почти наверняка встречаются у всех эукариот ( |P62828|RAN_RAT GTP-binding nuclear protein Ran, |P50579|MAP2_HUMAN Methionine aminopeptidase 2, |Q15418|KS6A1_HUMAN Ribosomal protein S6 kinase alpha-1 ), выбрали из списков по варианту, скачали в формате fasta последовательности (ran.fasta, map.fasta (1 изоформа), kin.fasta) . Далее ввели команду tblastn -query ran.fasta -db sb -out ran.out , для двух других файлов аналогично. Получены файлы: ran.out, map.out, kin.out.

Сравнение находок представлено в Tаблице 4.

Таблица 4. Результаты поиска гомологов в данной сборке для трех белков.
Число находок Max.score Min.score Min.E-value Max.E-value Max.identity Min.identity
ran.out 28 352 (scaffold-26) 26.9 (unplaced-979) 2e-110 9.3 75% 33%
map.out 3 493 (scaffold-693) 29.3 (scaffold-17) 3e-155 6.1 64% 45%
kin.out 93 320 (scaffold-26) 28.1 (scaffold-208) 3e-92 8.4 52% 40%

GTP-binding nuclear protein Ran из крысы - ГТФаза, участвующая в нуклеоцитоплазматическом транспорте. Например, многие ядерные импортёры связывают свои субстраты только в присутствии Ran-ГТФ, а высвобождают при гидролизе ГТФ, связанного с Ran. Также изменение конформации Ran при связывании с определённым белком влияет на ядерный экспорт. 75% identity - хорошие значения, вполне подтверждающие присутствие гомолога в неаннотированном геноме.

Methionine aminopeptidase 2 из Homo sapiens - фермент, контрансляционно отщепляющий N-концевой метионин при синтезе белка. Достаточно хорошее E-value и 64% identity указывают на наличие гомолога в сборке.

Ribosomal protein S6 kinase alpha-1 из человека - рибосомальная протеинкиназа, участвующая в сигнальном пути ERK. Из-за весьма низкого значения identity гомология ставится под вопрос. Вероятно, ввиду большой распрострённости и востребованности киназы очень разнообразны.

Задание 4.

В этом задании нам надо было сначала взять из какой-либо сборки контиг или скэффолд длины порядка десятков тысяч пар нуклеотидов, в котором ещё не аннотированы гены белков, а потом найти правдоподобный ген. Для этого мы использовали сборку X5 Amoeboaphelidium protococcarum с kodomo, с помощью команды infoseq X5.fasta -only -name -length выяснили длины фрагментов, выбрали один (scaffold-698 длиной 23460) и вставили его в blastx (переводит изучаемую нуклеотидную последовательность в кодируемые аминокислоты, а затем сравнивает её с имеющейся базой данных аминокислотных последовательностей белков), выбрали поиск по RefSeq и поставили ограничение на Опистоконт. Результаты представлены на странице. Все находки имели нулевое E-value и большинство указывали на то, что в данном скэффолде содержится ген субъединицы гамма 2 фактора элонгации транскрипции. Странно, что третья находка очень выпадающая - P-loop containing nucleoside triphosphate hydrolase protein. По данным UNIPROT, он ещё не аннотирован и связывает актиновые филаменты. Возможно, в будущем кто-нибудь выявит связь между ним и фактором элонгации транскрипции - скорее, сходство с P-loop containing nucleoside triphosphate hydrolase protein является результатом коэволюции.