Поиск по сходству (blast)

Задание 1.

Данное задание было выполнено мной в предыдущем практикуме.
 

Задание 2.

В данном задании было необходимо сравнить списки находок нуклеотидной последовательности из предыдущего практикума тремя разными алгоритмами (blastn, megablast, discontiguous megablast).
Задал параметры: "Organism" - Canalipalpata, "Max target sequences" - 100 и "Expect treshold" - 1. Результат поиска по каждому алгоритму можно посмотреть в таблице ниже:
Алгоритм blastn megablast discontiguous megablast
Число находок 112 42 112
E-value худшей находки 6e-54 5e-72 6e-54
Сходство худшей находки 81% 82% 81%
Query cover худшей находки 59% 82% 59%
 
Как видно, результатом поиска являются последовательности с довольно низким E-value, идентичностью не ниже 81%.
Результаты, выданные алгоритмами blastn и discontiguous megablast, совпадают между собой, но не с выдачей megablast. Связано это может быть с тем, что алгоритм megablast ищут близкие гомологи заданной последовательности, затравка для поиска этим алгоритмом составляет 28 нк, тогда как для остальных - 11 нк. Данный факт подтверждается высоким значением Query cover худшей находки - 82%.
Совпадение результатов поиска по blastn и discontiguous megablast позволяет сделать вывод, что последовательности, найденные blastn, являются гомологами.
 
Фрагмент результата выдачи алгоритма megablast

 
Фрагмент выдачи алгоритма discontiguous megablast

 
На иллюстрации выдачи алгоритма discontiguous megablast я отметил несколько находок, которые megablast "не заметил".
 

Задание 3.1

В данном задании требовалось проверьте наличие гомологов (алгоритм tblastn, ДБ refseq_representative_genomes) пяти белков (HSP7C_HUMAN, TERT_HUMAN, CISY_HUMAN, RPB1_HUMAN, PABP2_HUMAN) в геноме Danio rerio.
Белки:
 
Белок Число находок (хорошие/все) Параметры лучшей находки
Запись Процент идентичности Query cover E-value
HSP7C_HUMAN 5/10 Danio rerio strain Tuebingen chromosome 8, GRCz10; координаты: 24949043 - 24950878, 4742485 - 4744305 82% 94% 0.0
TERT_HUMAN 1/1 Danio rerio strain Tuebingen chromosome 19, GRCz10; координаты: 630351 - 630770, 630880 - 631065, 636583 - 636753, 629478 - 629780, 635562 - 635645, 638725 - 638859 38% 40% 7e-34
CISY_HUMAN 1/1 Danio rerio strain Tuebingen chromosome 23, GRCz10; координаты: 33997569 - 33997778, 33997150 - 33997491, 33993709 - 33993906, 33991518 - 33991712, 33990663 - 33990797, 33988588 - 33988698, 33990099 - 33990164 100% 93% 9e-70
RPB1_HUMAN 1/2 Danio rerio strain Tuebingen chromosome 12, GRCz10; координаты: 22446298 - 22447125, 22447194 - 22447292, 22448234 - 22448620, 22447948 - 22448154, 22447680 - 22447865, 22443593 - 22444171, 22444453 - 22444671, 22444269 - 22444367, 22442517 - 22442741, 22442798 - 22442962, 22443039 - 22443164, 22441150 - 22441446, 22441535 - 22441702, 22440389 - 22440811, 22444830 - 22445054, 22443364 - 22443576, 22445132 - 22445377, 22445578 - 22445763, 22445862 - 22445969, 22440120 - 22440254, 47781841 - 47782005, 47770395 - 47770529, 47742680 - 47742820, 47754117 - 47754242, 47741809 - 47742084, 47751054 - 47751194, 22447415 - 22447492, 47769749 - 47769880, 22439165 - 22439251, 47732517 - 47732681, 47773321 - 47773449, 22448963 - 22449022 78% 78% 2e-133
PABP2_HUMAN 1/4 Danio rerio strain Tuebingen chromosome 24, GRCz10; координаты: 14429530 - 14429420, 14428082 - 14427975, 14423934 - 14423809, 14429739 - 14429665, 14431283 - 14431173 95% 54% 4e-15
 
В выдаче поисков двух белков - TERT_HUMAN и PABP2_HUMAN, выданные последовательности были довольно сомнительной гомологичности. Так, лучшая (потому что единственная) находка в геноме Danio rerio по белку TERT_HUMAN имеет очень низкое покрытие исследуемой последовательности, хотя и по всей её длине. Возможно, это связано с тем, что аналогичный теломеразе человека белок Danio rerio очень далеко ушёл от человеческого в ходе эволюции, а возможно и с тем, что отсутствующие между участками выданной последовательности "кусочки" отсутствуют в уже секвенированных участках (ещё не секвенированы).
 
С белком PABP2_HUMAN похожая ситуация, выданные blast-ом последдовательности весьма слабо гомологичны искомому белку. В данном случае, на мой взгляд, "хороших" находок вообще нет, хотя у лучшей находки и хорошое значение процента идентичности (95%, пусть и при малом покрытии - 54%), да и E-value неплохой - 4е-15. Возможно, в данном случае, как и у белка TERT_HUMAN, остальные участки пока не секвенированы, хотя из-за того, что найденные blast-ом участки лежат близко друг к другу, мне кажется, что это также может быть какой-то другой белок, у которого имеется домен, выполняющий ту же функцию, что и соответствующий участок в белке TERT_HUMAN. Его-то blast и нашёл.
 
У остальных трёх белков ситуация получше. У белка HSP7C_HUMAN 5 из 10 находок я посчитал "удачными" из-за низких значений E-value и высоких - идентичности и покрытия. После 5-й находки идёт резкий скачок вверх по E-value и вниз по покрытию, поэтому "хорошими" я посчитал именно 5 первых находок.
 
У белка CISY_HUMAN оказалась единственная находка, и низкое значение E-value и высокие - идентичности и покрытия позволяют сделать вывод, что находка гомологична искомому белку.
 
В случае белка RPB1_HUMAN ситуация немного похуже - 2 находки, из которых у лучшей довольно неплохие, но всё равно не очень высокие значения идентичности и покрытия (по 78% каждая) при хорошем E-value (2e-133), но всё равно эту находку можно считать гомологичной. Вторая находка - совсем негомологична искомой последовательности, лишь некоторые участки совпадают.
 

Задание 4

Для работы в этом задании я выбрал вирус, который был моим учебным объектом в первом семестре - вирус бешенства Rabies virus. Также я выбрал ещё 4 вируса из того же рода Lyssavirus: Aravan virus, Australian bat lyssavirus, Bokeloh bat lyssavirus, Duvenhage virus. Сохранил все 5 геномов вирусов в файле db.fasta, после чего "назначил" этот файл быть базой данных командой makeblastdb -in db.fasta -dbtype nucl на сервере kodomo. Затем командой blastn -task blastn -query db.fasta -db db.fasta -outfmt 7 > db_to_db_1 выровнял вирусные геномы друг относительно друга, и командой python revise_blast_7.py -i db_to_db_1 -o result.xls -e 1e-3 (максимальным возможным E-value я поставил 0,001) с помощью python-скрипта отсеял не информативные находки.
Таблица-результат.
Из-за того, что я не задавал особо суровые рамки, определяющие не информативные находки, можно посмотреть на все выданные результаты и решить, какие же вирусы наиболее родственны друг другу. Глядя на таблицу, сложно сказать, какой из вирусов наиболее близок вирусу бешенства. Мной был использован метод сравнения по длине выравнивания и сумме bit-score этих выравниваний. Исходя из такого сравнения, можно предположить, что наиболее близкими родственниками "моего" вируса бешенства являются вирусы Aravan virus, Australian bat lyssavirus и Bokeloh bat lyssavirus, а Duvenhage virus стоит немного в стороне. И вот тут с наиболее близким родственником опрелелиться очень сложно, используя мой метод: у Australian bat lyssavirus наиболее высокая сумма bit-score, но сумма длин выравнивания самая маленькая из этой тройки, тогда как у остальных двух вирусов меньше сумма счетов, но больше длина выравниваний. Мне кажется, что Australian bat lyssavirus и является наиболее близким родственником вируса бешенства Rabies virus, потому что у него сумма счетов всё же максимальна, и, к тому же, он выравнивается с вирусом бешенства в трёх участках, для двоих из которых характерно довольно низкое значение E-value (0.0), а у третьего - 8е-06. Aravan virus же выравнивается на двух участках, а Bokeloh bat lyssavirus - на трёх, но E-value одного из них очень высок (имеет пороговое значение 0.001)
 
 

Ссылка на главную страницу


© Головачев Ярослав