Поиск по сходству (blast)

Главная страница
Последовательность из практикума 6 была проанализирована с помощью BLASTN.
В таблице представлены несколько достоверных находок:

Организм Ген Total score Query cover E value Ident
Polycirrus medusa cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial 1034 100% 0.0 99%
Polycirrus phosphoreus cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial 740 99% 0.0 89%
Polycirrus carolinensis cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial 601 100% 4e-168 83%
Terebellidae sp. cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial 590 99% 7e-165 83%
Amphitrite cirrata cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial 572 99% 2e-159 82%
Neoamphitrite robusta cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial 569 94% 2e-158 83%


Все найденные виды принадлежат к кольчатым многощетинковым морским сидячим червям отряда Terebellida.

Таксономия:
Lophotrochozoa
- Annelida
- - Polychaeta
- - - Terebellida
( - - - Terebellidae
- - - - - Polycirrus – для трех лучших)

Некоторые виды:




Выравнивание входной последовательности с находками с помощью программы mafft.

Во всех последовательностях находок были обрезаны первые 80 нуклеотидов (те, которые не были корректно отображены на хроматограммах).

Далее было проведено сравнение трех алгоритмов BLAST в пределах отряда:

Алгоритм Число находок E-value для худшей находки Сходство для худшей находки
blastn 650 5.8 94%
megablast 14 2e-35 74%
discontiguous megablast 648 0.001 72%


Алгоритм megablast нашел значительно меньше (примерно в 46 раз) находок, а вот blastn и discontiguous megablast по числу находок почти не отличаются.
Megablast можно использовать только для поиска очень близких гомологов, так как этот алгоритм ищет затравку длиной 28 нуклеотидов (остальные - 11).
Blastn находит любые гомологи, но так как поиск производился в пределах не очень большой таксономической группы, то почти все они нашлись и discontiguous megablast, который ищет близких гомологов и не пропускает находки с большими E-value.
Alvinella caudata mariner-like transposon Alvcmar1.11 – самая худшая находка blastn не не найдена другими, мне кажется, что эта находка лишняя, транспозон явно не гомолог остальным белкам, которые являются цитохром c-оксидазами.
Также только blastn нашел Ctenodrilus serratus isolate 3 (а также 2 и 6) internal transcribed spacer, которые также лишние.
Среди находок discontiguous megablast нет никаких некодирующих участков генома, этот алгоритм более строгий.
Так как найдено четыре гена (вероятно, их больше) уникальных для blastn, а общее число находок превосходит число находок discontiguous megablast на 2, то существуют какие-то находки, полученные алгоритмом discontiguous megablast, но не blastn. Это может объяснятся тем, что при поиске используются различные паттерны.

Далее я проверяла наличие гомологов пяти белков в геноме собаки (Canis lupus familiaris).

HSP7C_HUMAN

Белок теплового шока. Тормозит активацию транскрипции, подавляя деятельность CITED1. Компонент комплекса PRP19-CDC5L, который требуется для активации сплайсинга пре-мРНК., может исполнять структурные функции в сплайсосоме. Участвует в LPS-индуцированной воспалительной реакции. Участвует в ER-связанной деградации.

TERT_HUMAN

Теломераза – фермент, необходимый для удлинения теломер у большинства эукариот. Активнен в стволовых и раковых клетках, малоактивнен в нормальных соматических клетках. Играет важную роль в старении и апоптозе.

CISY_HUMAN

Цитратсинтаза – катализирует реакцию: Ацетил-CoA + оксалоацетат + H2O = цитрат + CoA

RPB1_HUMAN

ДНК-зависимая РНК-полимераза II типа осуществляет транскрипцию, производит предшественников мРНК, мяРНК, миРнк.

PABP2_HUMAN

Полиаденилат-связывающий белок 2. Участвует в 3'-концевом формировании пре-мРНК, добавляя поли (А)-хвост. Способствует экспорту РНК из ядра и трансляции, в то же время подавляя её деградацию.

Белок Число хороших находок Лучшая находка Query cover для лучшей находки E value для лучшей находки Ident для лучшей находки
HSP7C_HUMAN 8 PREDICTED: Canis lupus familiaris heat shock 70kDa protein 8 (HSPA8), mRNA 94% 0.0 94%
TERT_HUMAN 1 (это единственная находка) Canis lupus familiaris telomerase reverse transcriptase (TERT), mRNA 87% 0.0 72%
CISY_HUMAN 3 PREDICTED: Canis lupus familiaris citrate synthase (CS), transcript variant X3, mRNA 97% 0.0 97%
RPB1_HUMAN 1 PREDICTED: Canis lupus familiaris polymerase (RNA) II (DNA directed) polypeptide A, 220kDa (POLR2A), mRNA 81% 0.0 95%
PABP2_HUMAN 2 Canis lupus familiaris poly(A) binding protein, nuclear 1 (PABPN1), mRNA 63% 7e-112 86%


Хорошими находками считались первые несколько находок, которые значительно отличались от последующих по своим параметрам.
Те находки, которые не содержат в названии “PREDICTED”, аннотированы, это лучшие находки для TERT_HUMAN и PABP2_HUMAN. Так же аннотированная одна из находок для HSP7C_HUMAN, но не лучшая из них. Неаннотированные находки – это автоматически созданные варианты транскрипции.

Для классификации были выбраны фаги энтеробактерий, принадлежащие к группе Siphoviridae:
Enterobacteria phage lambda
Enterobacteria phage T1
Enterobacteria phage cdtI
Enterobacteria phage phi80
Enterobacteria phage Chi

У этих вирусов большие геномы (50000-60000 пн), сложные для анализа. Хотя, возможно, это хорошо, так как для больших геномов легче проследить родство по сходным участкам.

С помощью tblastn я сравнила все геномы со всеми и использовала скрипт с разными параметрами длины выравнивания и процента идентичности.

Таблица с результатами.

Самые слабые условия: длина 40, процент идентичности 50. С такими параметрами нашлось 332 результата, среди них:
Enterobacteria phage lambda - 268
Enterobacteria phage T1 – 33, причем 9 раз против самого себя – видимо, этот вирус имеет в геноме достаточно длинные повторы
Enterobacteria phage cdtI - 171
Enterobacteria phage phi80 - 185
Enterobacteria phage chi - 7 – 6 из них против cdtI, но я считаю, что такое маленькое количество находок не свидетельствует о близком родстве

Для трех вирусов, встречающихся в находках наиболее часто:
Если смотреть на находки по мере ослабления условий, то можно видеть, что вначале появляются находки lambda против cdtI (больше) и lambda против phi80, а дальше уже появляются cdtI против phi80.
На основании данных из таблицы можно говорить, что lambda, cdtI и phi80 довольно близкие виды. Lambda, скорее всего, общий предок cdtI и phi80, причем phi80 отделился раньше (или просто быстрее эволюционировал). Chi, скорее всего, не является близким родственником остальных вирусов.
T1, вероятно, тоже не близкий родственник. Из прочих вирусов он ближе всего к phi80, также имеется его сравнение с lambda (что является слабым свидетельством в пользу предположения, что lambda – общий предок).

© Широковских Татьяна