Нуклеотидный BLAST

I

Для определения таксономии использовалась последовательность, определённая в шестом практикуме. Был запущен нуклеотидный BLAST с алгоритмом blastn (Somewhat similar sequences) по базе данных Nucleotide collection (nr/nt) при стандартных параметрах. Выдача BLAST'а. По всей видимости, последовательность соответствовала гистону H3, очень консервативному и важному белку, который необходим для формирования нуклеосом, а также участвует в глобальной регуляции транскрипции. Из-за высокой консервативности гистона H3, его нуклеотидную последовательность часто используют для реконструкции филогении различных организмов (наряду с цитохромами, генами рРНК и проч.).

По всей видимости, последовательность, с которой ведётся работа сейчас, принадлежит морскому огурцу Psolus phantapus (первые три выдачи соответствуют именно этому виду, четвёртая выдача — это вообще полихета). Уровень таксономии предложен именно до вида, скорее всего, не из-за того, что эта степень достоверности реально соответствует виду, а потому, что иглокожих в принципе достаточно мало секвенируют, тем более нет необходимости секвенировать несколько представителей одного и того же рода или, может быть, даже семейства. Итоговая таксономия до вида: Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Deuterostomia; Echinodermata; Eleutherozoa; Echinozoa; Holothuroidea; Dendrochirotacea; Dendrochirotida; Psolidae; Psolus; Psolus phantapus.

II

Было призведено сравнение списков находок нуклеотидной последовательности тремя алгоритмами BLAST: blastn, megablast и discontiguous megablast. Параметры запуска:

Organism: Dendrochirotida (taxid:7707) + Lophophorata (taxid:7568)
Database: Nucleotide collection (nr/nt) 
Max target sequences: 100
Expect threshold: 10 
Word size: 11 (blastn, discontiguous megablast) / 32 (megablast)
Max matches in a query range: 0
Match/Mismatch Scores: 2,-3 
Gap Costs: Existence: 5 Extension:2 
Filter: Low complexiy regions 
Mask: Mask for lookup table only

Число находокМаксимальный E-valueМинимальное Query coverПримеры находок, найденных этим алгоритмом, но не найденных каким-то другимВыдача
blastn3010-1366%
  1. PREDICTED: Lingula anatina armadillo repeat-containing protein 2-like (LOC106155625), transcript variant X4, mRNA
  2. PREDICTED: Lingula anatina armadillo repeat-containing protein 2-like (LOC106155625), transcript variant X3, misc_RNA
  3. PREDICTED: Lingula anatina armadillo repeat-containing protein 2-like (LOC106155625), transcript variant X2, mRNA
  4. PREDICTED: Lingula anatina armadillo repeat-containing protein 2-like (LOC106155625), transcript variant X1, mRNA
  5. PREDICTED: Lingula anatina armadillo repeat-containing protein 2-like (LOC106155554), mRNA
  6. REDICTED: Lingula anatina intraflagellar transport protein 172 homolog (LOC106164727), mRNA
  7. PREDICTED: Lingula anatina polycystic kidney disease protein 1-like 2 (LOC106161124), mRNA
Скриншот
discontiguous megablast2310-13638%Скриншот
megablast77 * 10-13877%Скриншот

Уникальная выдача blastn имеет очень низкое покрытие и очень высокий E-value, это их и отличает от остальных находок. Это демонстрирует, что алгоритм blastn с той же длиной слова, что discontiguous blast, однако, в отличие от него, blastn представляет даже достаточно далекие последовательности. Т.е., в отличие от discontiguous blast и megablast, blastn не отсекает находки с низким Query covery и E-value. Лучшие находки схожи у всех трёх алгоритмов, однако discontiguous megablast нашёл больше правдоподобно-похожих последовательностей (по покрытию и E-value), чем megalbast, но и не выдал совсем «плохие» находки. Основываясь на результатах, можно сделать следующие выводы:

  1. megablast находит самые достоверные и наиболее близкие гомологи
  2. discontigious megablast хорошо работает в плане поиска гомологов, которые прежде уже дивергировали, и имеют как схожие, так и различающиеся участки
  3. blastn выдает наиболее широкий спектр последовательностей, которые могут, вообще-то, и не быть гомологами исходной или являться очень далекими гомологами

III

В этом задании было необходимо проверить наличие гомологов определенных белков в геноме организма X5 (Amoboaphelidium protococarum) c помощью локального BLAST. Для начала была создана локальная база данных (makeblastdb -in X5.fasta -dbtype nucl), а затем для каждого из выбранных белков был запущен по ней алгоритм tblastn, находящий гомологи белка в формальной трансляции нуклеотидного банка (tblastn -query xxx.fasta -db X5.fasta > xxx.out).

HSP7C_HUMAN

HSP7C_HUMAN — консервативный шаперон HSP70, белок теплового шока. Имеется у большинства организмов из всех царств. Играет роль репрессора активации транскрипции. Является компонентом PRP19-CDC5L комплекса, формирующего интегральную часть сплайсосомы, и необходим для активации сплайсинга пре-мРНК. Связывая бактериальные ЛПС (липополисахариды), является посредником в процессах ЛПС-индуцированного воспаления, включая секрецию моноцитами TNF (фактора некроза опухоли). Результат работы tblastn.

Параметры лучшей находки:

> scaffold-199
Length = 1112851
Score = 917 bits (2369), Expect = 0.0, Identities = 474/607 (78%), Positives = 538/607 (89%), Gaps = 0/607 (0%), Frame = -2
У находки хороший E-value, достаточно высокие проценты Positives и Identities. На мой взгляд, параметры сходства достаточны, чтобы назвать ее гомологом исследуемого белка, вероятно выполняющим ту же функцию.

TERT_HUMAN

TERT_HUMAN — теломераза, восстанавливающая длину хромосомы при репликации. Имеется у большинства, но не у всех эукариот. Активна в прогениторных и раковых клетках, в нормальных же соматических не активна или проявляет очень низкую активность. Играет важную роль в процессах старения и предотвращении апоптоза. Результат работы tblastn.

Параметры лучшей находки:

> scaffold-17
Length = 2125590
Score = 105 bits (263), Expect = 8e-23, Identities = 151/568 (27%), Positives = 248/568 (44%), Gaps = 43/568 (8%), Frame = +1 
Этот результат является условно положительным. BLAST выдал три находки, однако даже у самой лучшей из них параметры сходства слишком низкие, чтобы утверждать сохранение функций. Гомология отдельных доменов также маловероятна, так как совпадения распределены по всей длине последовательности относительно равномерно.

CISY_HUMAN

CISY_HUMAN — митохондриальная цитратсинтаза. Участвует в цикле трикарбоновых кислот. Проявляет каталитическую активность в реакции Acetyl-CoA + H2O + oxaloacetate = citrate + CoA. Результат работы tblastn.

Параметры лучшей находки:

> scaffold-693
Length=1268102
Score = 565 bits (1457), Expect = 2e-180, Identities = 262/377 (69%), Positives = 315/377 (84%), Gaps = 3/377 (1%) Frame = +1
Скорее всего, эта находка действительно является гомологом интересующего нас белка с сохранением функций ввиду относительно хороших параметров сходства.

IV

Для поиска был выбран подходящий по длине контиг scaffold-693. Информация о длинах контигов была получен командой infoseq пакета EMBOSS: infoseq X5.fasta -only -name -length. Командой seqret X5.fasta:scaffold-693 -out scaffold693.fasta была извлечена последовательность выбранного контига в отдельный файл (scaffold693.fasta). Далее был запущен blastn с параметрами по умолчанию и ограничению по таксону Amoeboaphelidium (taxid:1243176). Результат работы blastn. Хотя перед нами достаточно маленькое покрытие, зато оно имеет достаточно высокий E-value. С учётом того, что найденные гены — это высококонсервативные гены рРНК, то находку можно считать удовлетворительной. По координатам участков и аннотации последовательностей в находках можно понять, что за гены содержатся в scaffold-693. Один из найденых участков участвует в кодировании 28S-рРНК, а второй — является частью спейсерного участка, функция которого предположительно заключается в обеспечении выского уровня транскрипции в связанных генах.