ФББ 2013-2014
Онлайн BLAST
В задании 1 требовалось найти организм по заданной 300-нуклеотидной последовательности. Последовательность, выданная мне, выглядела так. Для начала запустим megablast этой последовательности на сайте NCBI. В параметрах укажем имя базы данных - refseq_genomic. После 7ми минут раздумий, megablast выдал 10 результатов, все они приналежат к геному организма Xylella fastidiosa - гамма-протеобактерии, которая является патогеном растений. Попробуем понять, почему результатов так много и какой из них нам нужен. Результаты поиска представлены на рисунке 1.
Рис.1. Результаты работы megablast по поиску 300-нуклеотидной последовательности в базе данных refseq_genomic.
Для того, чтобы понять, откуда взялись все эти результаты, я поискала по базе BioProject на NCBI, сколько было проектов секвенирования генома этой бактерии. Выяснилось, что для Xylella fastidiosa отсеквенировано очень много штаммов (~20), скорее всего это произошло из-за её важности в хозяйственном плане, причём некоторые проекты ещё не завершены. Для надёжности было решено провести ещё один megablast того же фрагмента, только теперь по хромосомам (database name: chromosome) - это поможет отсечь результаты из ещё не законченных проектов. Его результат - 4 находки, 100%-ой совместимостью обладает только находка из Xylella fastidiosa 9a5c (9a5c - штамм). Если посмотреть на результаты первого megablast, то видно, что ещё 100% совпадением обладают контиги из штаммов 6с и 32. Их геномы уже секвенированы, но ещё не собраны до конца, так как проект начался недавно.
Поиск гомолога белка человека в слоне
Возьмём белок человека с ID HVCN1_HUMAN (Swiss-prot). Этот белок хорошо аннотирован и изучен, также у него расшифрована 3D структура. HVCN1 - потенциалозависимый протонный канал, находящийся в мембране клетки. Он участвует в транспорте протона в фагосомы. Теперь проведём поиск его гомолога в геноме Loxodonta africana через сервис ENA. Для этого нам понадобится нуклеотидная последовательность гена данного белка (её можно скачать здесь).
Нашлось 2 гомолога взятого белка в контигах генома Loxodonta africana. Лучшая находка с e-value = E-133 имеет Identity 90%. В ней содержится 1 интрон длиной 2672 пар оснований. Общая длина находки - 3041, координаты найденного гена в контиге - 5357767<-5354727. Выравнивание исходного гена и гена из слона представлено ниже.
407 : CCATGGTATTCCACTACATGAGCATCACCATCTTGGTCTTTTTTATGATGGAGATC : 462 ||| ||| |||||||||||||||||| |||||||| |||||||||||||||| | 5357767 : CCA-GGTGTTCCACTACATGAGCATCGCCATCTTGACCTTTTTTATGATGGAGGTT : 5357713 463 : ATCTTTAAATTATTTGTCTTCCGCCTGGAGTTCTTTCACCACAAGTTTGAGATCCT : 518 ||||||| |||||||||||||||||||||||||||||||||||||||| ||||| 5357712 : TCCTTTAAAATATTTGTCTTCCGCCTGGAGTTCTTTCACCACAAGTTTGAAATCCT : 5357657 519 : GGATGCCGTCGTGGTGGTGGTCTCATTCATCCTCGACATTGTCCTCCTGTTCCAGG : 574 ||||||| ||||||||||||| || |||||||||||||| ||||||||||||| | 5357656 : GGATGCCATCGTGGTGGTGGTTTCCTTCATCCTCGACATCGTCCTCCTGTTCCGAG : 5357601 575 : AGCACCAGTTTGAGGCTCTGGGCCTGCTGATTCTGCTCCGGCTGTGGCGGGTGGCC : 630 |||| ||||||||||||| |||||| ||||||||||||||||||||||||||||| 5357600 : AGCATGAGTTTGAGGCTCTTGGCCTGTTGATTCTGCTCCGGCTGTGGCGGGTGGCC : 5357545 631 : CGGATCATCAATG >>>> Target Intron 1 >>>> GGATTATCATCTCA : 657 || ||| |||| |++ 2672 bp ++|||| || |||||| 5357544 : CGCATCGTCAACGgt.........................agGGATCATTATCTCA : 5354846 658 : GTTAAGACACGTTCAGAACGGCAACTCTTAAGGTTAAAACAGATGAATGTACAATT : 713 |||||||||||||||||||||||||||||||||||||||||||||||| ||||||| 5354845 : GTTAAGACACGTTCAGAACGGCAACTCTTAAGGTTAAAACAGATGAATATACAATT : 5354790 714 : GGCCGCCAAGATTCAACACCTTGAGTTCAGCTGCTCTGAGAAGG-AACAAGA-AAT : 767 |||||||||||| ||||||||||||||||||||| ||||||||| || | || | 5354789 : GGCCGCCAAGATCCAACACCTTGAGTTCAGCTGCACTGAGAAGGTAAGAGGACACC : 5354734 768 : TGAAAGA : 774 | | ||| 5354733 : TCAGAGA : 5354727
Поиск некодирующих последовательностей программой BLAST
Возьмём геном бактерии Chlorobium tepidum TLS и найдём в нём все гены, кодирующие тРНК. Для этого введём в поисковую строку NCBI Nucleotide следующий запрос: (Chlorobium tepidum TLS tRNA) AND "Chlorobium tepidum TLS"[porgn:__txid194439] . Всего было найдено 54 результата, из которых 50 - гены тРНК (то, что мы ищем). Также можно было искать по специальной базе данных тРНК. Из всех тРНК была выбрана триптофановая (ссылка на неё в NCBI).
Сначала был проведён megablast по данной тРНК, получилось 100 результатов с хорошим e-value, из этих результатов
12 принадлежат организмам того же порядка (Chlorobiaceae), что и Chlorobium tepidum TLS.
Теперь используем blastn - более медленный алгоритм для поиска гомологичных нуклеотидных последовательностей.
Сначала запустим blastn со стандартными параметрами. После 15 минут ожидания получилось 151 хит с худшим e-value
5e-22. Если же запустить blastn с изменёнными параметрами (Match/Mismatch scores - 1/-1, Word size - 7), то получится
231 находка с худшим e-value 4e-19.
Стоит отметить, что все алгоритмы на первые позиции (с наилучшими score и e-value) поставили находки из наиболее родственных организмов (из одного и того же порядка), однако megablast справился с этой задачей лучше всех. Также megablast нашёл больше последовательностей со 100% сходством и работал намного быстрее, чем blastn.