|
Последовательность из практикума 6 была проанализирована с помощью BLASTN.
В таблице представлены несколько достоверных находок:
Все найденные виды принадлежат к кольчатым многощетинковым морским сидячим червям отряда Terebellida. Таксономия: Lophotrochozoa - Annelida - - Polychaeta - - - Terebellida ( - - - Terebellidae - - - - - Polycirrus – для трех лучших) Некоторые виды: Выравнивание входной последовательности с находками с помощью программы mafft. Во всех последовательностях находок были обрезаны первые 80 нуклеотидов (те, которые не были корректно отображены на хроматограммах). Далее было проведено сравнение трех алгоритмов BLAST в пределах отряда:
Алгоритм megablast нашел значительно меньше (примерно в 46 раз) находок, а вот blastn и discontiguous megablast по числу находок почти не отличаются. Megablast можно использовать только для поиска очень близких гомологов, так как этот алгоритм ищет затравку длиной 28 нуклеотидов (остальные - 11). Blastn находит любые гомологи, но так как поиск производился в пределах не очень большой таксономической группы, то почти все они нашлись и discontiguous megablast, который ищет близких гомологов и не пропускает находки с большими E-value. Alvinella caudata mariner-like transposon Alvcmar1.11 – самая худшая находка blastn не не найдена другими, мне кажется, что эта находка лишняя, транспозон явно не гомолог остальным белкам, которые являются цитохром c-оксидазами. Также только blastn нашел Ctenodrilus serratus isolate 3 (а также 2 и 6) internal transcribed spacer, которые также лишние. Среди находок discontiguous megablast нет никаких некодирующих участков генома, этот алгоритм более строгий. Так как найдено четыре гена (вероятно, их больше) уникальных для blastn, а общее число находок превосходит число находок discontiguous megablast на 2, то существуют какие-то находки, полученные алгоритмом discontiguous megablast, но не blastn. Это может объяснятся тем, что при поиске используются различные паттерны. Далее я проверяла наличие гомологов пяти белков в геноме собаки (Canis lupus familiaris). HSP7C_HUMAN Белок теплового шока. Тормозит активацию транскрипции, подавляя деятельность CITED1. Компонент комплекса PRP19-CDC5L, который требуется для активации сплайсинга пре-мРНК., может исполнять структурные функции в сплайсосоме. Участвует в LPS-индуцированной воспалительной реакции. Участвует в ER-связанной деградации. TERT_HUMAN Теломераза – фермент, необходимый для удлинения теломер у большинства эукариот. Активнен в стволовых и раковых клетках, малоактивнен в нормальных соматических клетках. Играет важную роль в старении и апоптозе. CISY_HUMAN Цитратсинтаза – катализирует реакцию: Ацетил-CoA + оксалоацетат + H2O = цитрат + CoA RPB1_HUMAN ДНК-зависимая РНК-полимераза II типа осуществляет транскрипцию, производит предшественников мРНК, мяРНК, миРнк. PABP2_HUMAN Полиаденилат-связывающий белок 2. Участвует в 3'-концевом формировании пре-мРНК, добавляя поли (А)-хвост. Способствует экспорту РНК из ядра и трансляции, в то же время подавляя её деградацию.
Хорошими находками считались первые несколько находок, которые значительно отличались от последующих по своим параметрам. Те находки, которые не содержат в названии “PREDICTED”, аннотированы, это лучшие находки для TERT_HUMAN и PABP2_HUMAN. Так же аннотированная одна из находок для HSP7C_HUMAN, но не лучшая из них. Неаннотированные находки – это автоматически созданные варианты транскрипции. Для классификации были выбраны фаги энтеробактерий, принадлежащие к группе Siphoviridae: Enterobacteria phage lambda Enterobacteria phage T1 Enterobacteria phage cdtI Enterobacteria phage phi80 Enterobacteria phage Chi У этих вирусов большие геномы (50000-60000 пн), сложные для анализа. Хотя, возможно, это хорошо, так как для больших геномов легче проследить родство по сходным участкам. С помощью tblastn я сравнила все геномы со всеми и использовала скрипт с разными параметрами длины выравнивания и процента идентичности. Таблица с результатами. Самые слабые условия: длина 40, процент идентичности 50. С такими параметрами нашлось 332 результата, среди них: Enterobacteria phage lambda - 268 Enterobacteria phage T1 – 33, причем 9 раз против самого себя – видимо, этот вирус имеет в геноме достаточно длинные повторы Enterobacteria phage cdtI - 171 Enterobacteria phage phi80 - 185 Enterobacteria phage chi - 7 – 6 из них против cdtI, но я считаю, что такое маленькое количество находок не свидетельствует о близком родстве Для трех вирусов, встречающихся в находках наиболее часто: Если смотреть на находки по мере ослабления условий, то можно видеть, что вначале появляются находки lambda против cdtI (больше) и lambda против phi80, а дальше уже появляются cdtI против phi80. На основании данных из таблицы можно говорить, что lambda, cdtI и phi80 довольно близкие виды. Lambda, скорее всего, общий предок cdtI и phi80, причем phi80 отделился раньше (или просто быстрее эволюционировал). Chi, скорее всего, не является близким родственником остальных вирусов. T1, вероятно, тоже не близкий родственник. Из прочих вирусов он ближе всего к phi80, также имеется его сравнение с lambda (что является слабым свидетельством в пользу предположения, что lambda – общий предок). |