Отчёт по практикуму 8

Нуклеотидный BLAST

Как и во втором семестре, в третьем изучается BLAST, но работа теперь идёт не только с белками.

Определение таксономии и функции последовательности из практикума 6

В практикуме 6 фигурировала некая последовательность, секвенированная по Сэнгеру. Сейчас же для нас перестанет быть загадкой природа той последовательности.

Первым делом я запустил blastn по Nucleotide collection, используя в качестве запроса консенсусную последовательность из шестого практикума, потому что было неизвестно, чего ожидать. Самыми близкими находками стали цитохромоксидазы из митохондрий кольчатых червей, причём сходство было весьма велико (а РНК встречались исчезающе мало), поэтому я провёл затем и megablast (так как много сходных образцов) наряду с blastx (так как ген кодирует белок).

Выдача megablast так дифференцировала находки: 4 образца Polycirrus medusa со счётом от 1110 до 1218, затем 16 Polycirrus sp., у которых от 784 до 983 баллов. Ближайшие соседи в списке относятся к тому же семейству Terebellidae, что и род Polycirrus, набирая 592 балла и менее. Чтобы проверить, какое сходство вообще может быть между последовательностями, принадлежащими червям данного семейства, я скачал несколько примеров из выдачи и запустил blastn suite-2sequences (megablast). Вот что было скачано:

Рисунки 1-3 иллюстрируют результаты выравниваний.

с семейством
Рисунок 1.
Характеристика выравнивания лучшего результата с последним из его рода и четырьмя следующими — из его семейства.
с родом
Рисунок 2.
То же, но взято два образца того же вида и два следующих, Polycirrus sp.
другой вид
Рисунок 3.
P. phosphoreus, первые строки таблицы с характеристикой выравнивания его последовательности с последовательностями всего рода (первая строка — выравнивание самой на себя).

Анализируя результаты, можно заключить, что исходный запрос явно принадлежит роду Polycirrus, так как именно с образцами этого рода счёт превышал 750 (даже 780), а E-value было равно нулю. (У разных родов семейства обычно до 600). Даже, скорее всего, виду P. medusa, потому что счёт выравнивания между разными видами обычно был меньше 1000, а у изучаемой последовательности с этим видом было больше 1100.

Интересно, что при blastx (кстати, генетический код был выбран Invertebrate Mitochondrial) первые результаты — при сортировке по E-value принадлежали не роду Polycirrus. Это связано с тем, что последовательность P. medusa в банке неполная (как и нуклеотидные последовательности были partial cds, так и здесь есть пометка partial). Некоторые более длинные записи имеют больше совпадений с запросом и, как следствие, выигрывают в счёте, однако только с P. medusa наблюдается 100% identity. Какие белки были найдены, можно увидеть на рисунке 4. (Практически все имеют одну функцию).

белки
Рисунок 4.
Разнообразие функций найденных белков (фрагмент).

Итак, с большой уверенностью можно утверждать: запросом был фрагмент гена цитохром c-оксидазы 1 кольчатого червя Polycirrus medusa.

Сравнение трёх алгоритмов BLAST

Теперь нужно сравнить результаты работы трёх запусков BLAST: megablast, blastn с параметрами по умолчанию, blastn с самыми чувствительными настройками.

Нужно было исследовать и последовательность из задания 1, и одну из CDS вируса из практикума 7 (выбранная). В таблице 1 приведены параметры запусков BLAST.

Таблица 1. Параметры BLAST при трёх запусках
Program Selectionmegablastblastn (по умолч.)blastn (чувствит.)
General Parameters
Max target
sequences
100010001000
Short queries+++
Expect threshold0.00010.00010.0001
Word size28117
Max matches in a
query range
000
Scoring Parameters
Match/Mismatch
Scores
1,-22,-31,-1
Gap CostsLinearExistence: 5
Extension: 2
Existence: 0
Extension: 2
Filters and Masking
FilterLow complexity
regions
Low complexity
regions
Low complexity
regions
MaskFor lookup table onlyFor lookup table onlyFor lookup table only

Отдельно покажем таксоны, в которых шёл поиск для червя и для вируса. (См. рис. 5-6).

поиск для червя
Рисунок 5.
Поле поиска для P. medusa.
поиск для вируса
Рисунок 6.
Поле поиска для вирусной CDS.

Таблица 2 показывает число находок алгоритмов.

Таблица 2. Находки при шести запусках BLAST
P. medusaPseudoalteromonas virus
megablast144
blastn по умолч.14140
blastn чувствит.144244

Megablast во всех случаях нашёл выравнивания с identity от 76%. Разные параметры запуска blastn не так сильно отличаются по выдаче для червя, как для фага. Там только добавились последовательности с ещё меньшим процентом совпадений и счётом (см. рис. 7), при том это всё ещё цитохромоксидазы.

худшие результаты
Рисунок 7.
Три результата с худшим счётом и два результата до них.

Для вируса megablast нашёл родственные вирусы, blastn добавил 3 сборки бактерий, на которых данный фаг паразитирует, и некоторое количество других, уже близко не связанных; изменение параметров только увеличило число этих «других». Так как последовательность предположительно кодирует фактор репликации, то и встречаться он теоретически может много где. Есть и фрагменты с малым покрытием, напоминающие спейсеры из CRISPR-кассет к каким-то родственным последовательностям:

Query  1027     TTTGGCGTTCGCGTTGTTGAGCCACATCACGATGCAACCCCGCACTGGCATATGCT  1082
                ||||||||||| ||||  ||||| ||||||||||  || || ||||||||| ||||
Sbjct  1551554  TTTGGCGTTCGTGTTGCCGAGCCTCATCACGATGGCACACCACACTGGCATTTGCT  1551609

(Выравнивание с Vibrio rotiferianus AM7 DNA, chromosome 2, complete genome — AP019799.1).

Гомологи в неаннотированном геноме

Нужно было выбрать три типично эукариотических белка и проверить наличие их гомологов в сборке Amoeboaphelidium protococcarum X5 с kodomo.

Я выбрал тубулин (альфа-1 субъединицу), гистон H3.1, обратную транскриптазу-теломеразу. Нашёл нужные ID в Swiss-Prot, а затем выполнил команды:

Использована таблица генетического кода 6, потому что она упоминалась на странице вида в NCBI Taxonomy. Полученные файлы: h31.hits, tubulin.hits, rt.hits. Для всех трёх белков результат положительный. Охарактеризуем достоверные находки (см. табл. 3).

Таблица 3. Гомологи трёх белков в базе X5
ФайлЧисло достоверных
находок
Мин. счётМакс. счётМакс. E-valueМин. E-valueМин. % identityМакс. % identity
h31.hits663,92545e-134e-789495
tubulin.hits51358332e-370,04193
rt.hits21291384e-308e-332727

У тубулина высокое сходство между альфа- и бета-субъединицами, поэтому среди находок, вероятно, обе. В целом тубулин и гистон оказались намного более консервативны, чем обратная транскриптаза (может быть, это связано с тем, что они выполняют структурную функцию, а теломераза — только каталитическую). Наличие малоконсервативных регионов отражено и на странице фермента в Pfam. Каталитические и трансмембранные домены расположены после 450-й аминокислоты, а этот участок и попал в выравнивание.

Поиск гена белка в контиге

Требуется взять контиг или скэффолд в неаннотированном геноме и найти в нём наиболее достоверный ген белка.

В геноме, который я рассматривал в практикуме 7, белки аннотированы, поэтому я нашёл новый. Потом я выбрал скэффолд длиной около 40 килобаз. Поиск гомологов был выполнен на сайте NCBI BLAST (blastx по refseq_protein, таксон Chlorophyta/Embryophyta group (taxid:33090)).

Самый большой счёт набрал ген пируваткиназы. Приведём его выравнивания с первым результатом из выдачи, не имеющим пометки PREDICTED (plastidial pyruvate kinase 4, chloroplastic isoform X1 [Camellia sinensis], Sequence ID: XP_028077586.1).

Для этой находки суммарный счёт составил 1031; E-value 0,0; 69,62% identity — то есть можно уверенно утверждать гомологию.

В четырёх заданиях восьмого практикума применялись самые разные алгоритмы как нуклеотидного, так и нуклеотидно-белкового BLAST, причём не только на сайте NCBI, но и на kodomo. Может быть, после этого будет проще запомнить, где tblastn, а где blastx!