Задание 2
Вычислите информационное содержание (IC) последовательностей Козак в геноме данио рерио и постройте LOGO этого сигнала. Word документ и Excel файл.
Проверка PWM для сайтов регуляции разрывной транскрипции sgmRNA
- В этом задании я использовал свой единственный найденный мотив из предыдущего задания, найденный у вируса Canada goose coronavirus
- Чтобы отыскать мой мотив в моем вирусе и двух других запускалась программа FIMO
fimo --o result_gen --motif 1 --norc meme.txt virus_genom.fasta
- Выдача FIMO для моего вируса. При этом найдено 11 совпадений в геноме Canada goose coronavirus, хотя на NCBI сказано, что у него 16 генов (хотя возможно, что некоторых hypothetical protein все же не практические или перед ними какой-нибудь другой мотив). при этом p-value находок FIMO все же намекают, что мои находки значимы
- Для выполнения аналогичного задания, но для других родственных вирусов нужно было найти другой штамм этого вида и другой вид, однако, т.к. полных геномов для другого штамм или другого родственного вида не было, пришлось выбирать родственников более далеких. Мой выбор пал на род Gammacoronavirus в котором как раз и находится подрод (хотя он отмечен no rank) unclassified Gammacoronavirus, к которому относится мой выбранный вирус. В этом роде 3 подрода один из которых Igacovirus из которого я взял Duck coronavirus т.к. у него есть полный геном и так как в этому роду больше не было ниодного полного генома пришлось подниматься выше по дереву и брать другой род подсемейства Orthocoronavirinae, в котором находится как раз род Gammacoronavirus. В итоге третьим стал род unclassified Orthocoronavirinae вид Shrew coronavirus
- Для этих двух вирусов так же был запущен FIMO.
- Выдача для Duck coronavirus и Shrew coronavirus
- В итоге, для Duck из 12 генов только для 5 нашелся мой мотив, а для Shrew из 5 генов - 1 находка.
- Под конец можно сказать, что в итоге нельзя до конца быть увереным, что найденный мной мотив является сигналом регуляции транскрипции, а если и предположить это, то он, судя по находкам в других организмах, не является специфичным только для моего вируса.
- Далее была построена LOGO последовательности Козак поздних генов моего вируса. Для этого был использован сервис webLOGO. Куда были загружены вырезанные из нуклеотидной последовательности участки по 10 справа и слева от ATG в начале гена (-10...ATG...+10).
- Как видно из рис. 1 и 2 LOGO последовательности моего вируса и человека совсем не похожи, более того LOGO выглядит так, как будто у вируса в том месте, где указаны начала генов в gb ее нет. Это может говорить о том, что начала генов у этого организма неверно найдены. Еще было удивительно, что у двух последних генов на координатах начала отсутствовал ATG. Возможно у птиц (а именно в моем случае у гусей) транскрипционный аппарат устроен по-другому и на самом деле мотив может располагаться еще левее выбранных мной нуклеотидов.