Kodomo

Пользователь

Практикум 8

Задание 1

В прошлом практикуме я выяснил что организм, к которому принадлежит моя последовательность, относится к роду Loxosomella, а последовательность принадлежит гену, который кодирует 18S рибосомальную РНК.

Задание 2

1) blastn

Ограничил поиск бласта родом Loxosomella. Бласт выдал 19 резальтатов.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/blastn.png

Рис.1 Почкти все находки blastn

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/bad_blastn.png

Рис.2 Худшая находка

Самое интересное, что худшая находка blastn - это единственная находка, которой не будет в двух других алгоритмах (увидим это далее).

2)discontiguous megablast

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/megablast.png

Рис.3 Почти все находки discontiguous megablast

Как я уже сказал выше, здесь 18 находок и от blastn отличается только отсутствием худшей находки blastn.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/bad_megablast.png

Рис.4 Худшая находка discontiguous megablast

3) megablast

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/MEGA.png

Рис.5 Все находки megablast

Выход полностью совпадает с выходом discontiguous megablast.

Ограничение по роду не дало в полной мере ощутить разницу между алгоритмами, но даже по полученным данным можно сделать вывод что megablast и discontiguous megablast работают строже (меньше находок), чем blastn. А если еще и почитать характеристики каждого алгоритма на странице запуска, то можно понять что сaмый строгий - megablast, так как для него минимальный размер сида, который инициирует выравнивание, выше чем у двух других и штрафы за гэпы высчитываются сложней, чем для двух других.

Задание 3

Проверьте наличие гомологов пяти белков в геноме (Bos taurus)

hsp7c.fasta – белок теплового шока

tert.fasta - каталитическая субъединица теломеразы

cisy.fasta - митохондриальный фермент цитратсинтаза

rpb1.fasta - субъединица B1 ДНК-зависимой РНК-полимеразы II

pabp2.fasta - ядерный полиаденин связывающий белок.

1) hsp7c

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/1prot.png

Рис.6 Выдача бласта для hsp7c

51 находка, гомолог - лучшая находка, белок теплового шока коровы со сходством 94%.

2) tert

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/2prot.png

Рис.7 Выдача бласта для tert

Всего 4 находки, лучшая – гомолог (67% сходства, тоже TERT).

3) cisy

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/3prot.png

Рис.8 Выдача бласта для cisy

Всего 5 находок, лучшая – гомолог с такой же функцией, 96% сходства.

4) prb1

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/4prot.png

Рис.9 Выдача бласта для prb1

15 находок, лучшая – гомолог (95%) - субъединица А той же полимеразы.

5) rabp2

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/5prot.png

Рис.10 Выдача бласта для rabp2

65 находок, лучшая – гомолог, ядерный полиаденин связывающий белок, 86% сходства.

Вывод: в корове есть все гомологи человеческих белков :)

Задание 4

Я взял род Circovirus.

- Swan circovirus (ищем близких ему)

- Beak and feather disease virus

- Canary circovirus

- Finch circovirus

- Goose circovirus

- Gull circovirus

Скачал их геномы, объединил в один fasta

makeblastdb -in VIRUS.fasta -dbtype nucl ## создал базу данных

tblastx -query VIRUS.fasta -db VIRUS.fasta -out VIRUS.out -outfmt 7 ## получил таблицу результатов tblastx

python revise_blast_7.py --infile VIRUS.out --identity 50 --max_exp 1 -o gen_output.xls ## скриптом избавились от лишнего.

Таблица

Отсортировав таблицу по проценту идентичных позиций в находке, я решил, что наиболее близок к первому вирусу - Goose circovirus (NC_003054.1 )

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr8/viruses.png