Практикум 8
Задание 1
В прошлом практикуме я выяснил что организм, к которому принадлежит моя последовательность, относится к роду Loxosomella, а последовательность принадлежит гену, который кодирует 18S рибосомальную РНК.
Задание 2
1) blastn
Ограничил поиск бласта родом Loxosomella. Бласт выдал 19 резальтатов.
Рис.1 Почкти все находки blastn
Рис.2 Худшая находка
Самое интересное, что худшая находка blastn - это единственная находка, которой не будет в двух других алгоритмах (увидим это далее).
2)discontiguous megablast
Рис.3 Почти все находки discontiguous megablast
Как я уже сказал выше, здесь 18 находок и от blastn отличается только отсутствием худшей находки blastn.
Рис.4 Худшая находка discontiguous megablast
3) megablast
Рис.5 Все находки megablast
Выход полностью совпадает с выходом discontiguous megablast.
Ограничение по роду не дало в полной мере ощутить разницу между алгоритмами, но даже по полученным данным можно сделать вывод что megablast и discontiguous megablast работают строже (меньше находок), чем blastn. А если еще и почитать характеристики каждого алгоритма на странице запуска, то можно понять что сaмый строгий - megablast, так как для него минимальный размер сида, который инициирует выравнивание, выше чем у двух других и штрафы за гэпы высчитываются сложней, чем для двух других.
Задание 3
Проверьте наличие гомологов пяти белков в геноме (Bos taurus)
hsp7c.fasta – белок теплового шока
tert.fasta - каталитическая субъединица теломеразы
cisy.fasta - митохондриальный фермент цитратсинтаза
rpb1.fasta - субъединица B1 ДНК-зависимой РНК-полимеразы II
pabp2.fasta - ядерный полиаденин связывающий белок.
1) hsp7c
Рис.6 Выдача бласта для hsp7c
51 находка, гомолог - лучшая находка, белок теплового шока коровы со сходством 94%.
2) tert
Рис.7 Выдача бласта для tert
Всего 4 находки, лучшая – гомолог (67% сходства, тоже TERT).
3) cisy
Рис.8 Выдача бласта для cisy
Всего 5 находок, лучшая – гомолог с такой же функцией, 96% сходства.
4) prb1
Рис.9 Выдача бласта для prb1
15 находок, лучшая – гомолог (95%) - субъединица А той же полимеразы.
5) rabp2
Рис.10 Выдача бласта для rabp2
65 находок, лучшая – гомолог, ядерный полиаденин связывающий белок, 86% сходства.
Вывод: в корове есть все гомологи человеческих белков
Задание 4
Я взял род Circovirus.
- Swan circovirus (ищем близких ему)
- Beak and feather disease virus
- Canary circovirus
- Finch circovirus
- Goose circovirus
- Gull circovirus
Скачал их геномы, объединил в один fasta
makeblastdb -in VIRUS.fasta -dbtype nucl ## создал базу данных
tblastx -query VIRUS.fasta -db VIRUS.fasta -out VIRUS.out -outfmt 7 ## получил таблицу результатов tblastx
python revise_blast_7.py --infile VIRUS.out --identity 50 --max_exp 1 -o gen_output.xls ## скриптом избавились от лишнего.
Отсортировав таблицу по проценту идентичных позиций в находке, я решил, что наиболее близок к первому вирусу - Goose circovirus (NC_003054.1 )