ФББ 2013-2014

Онлайн BLAST

В задании 1 требовалось найти организм по заданной 300-нуклеотидной последовательности. Последовательность, выданная мне, выглядела так. Для начала запустим megablast этой последовательности на сайте NCBI. В параметрах укажем имя базы данных - refseq_genomic. После 7ми минут раздумий, megablast выдал 10 результатов, все они приналежат к геному организма Xylella fastidiosa - гамма-протеобактерии, которая является патогеном растений. Попробуем понять, почему результатов так много и какой из них нам нужен. Результаты поиска представлены на рисунке 1.

Рис.1. Результаты работы megablast по поиску 300-нуклеотидной последовательности в базе данных refseq_genomic.

Для того, чтобы понять, откуда взялись все эти результаты, я поискала по базе BioProject на NCBI, сколько было проектов секвенирования генома этой бактерии. Выяснилось, что для Xylella fastidiosa отсеквенировано очень много штаммов (~20), скорее всего это произошло из-за её важности в хозяйственном плане, причём некоторые проекты ещё не завершены. Для надёжности было решено провести ещё один megablast того же фрагмента, только теперь по хромосомам (database name: chromosome) - это поможет отсечь результаты из ещё не законченных проектов. Его результат - 4 находки, 100%-ой совместимостью обладает только находка из Xylella fastidiosa 9a5c (9a5c - штамм). Если посмотреть на результаты первого megablast, то видно, что ещё 100% совпадением обладают контиги из штаммов 6с и 32. Их геномы уже секвенированы, но ещё не собраны до конца, так как проект начался недавно.

Поиск гомолога белка человека в слоне

Возьмём белок человека с ID HVCN1_HUMAN (Swiss-prot). Этот белок хорошо аннотирован и изучен, также у него расшифрована 3D структура. HVCN1 - потенциалозависимый протонный канал, находящийся в мембране клетки. Он участвует в транспорте протона в фагосомы. Теперь проведём поиск его гомолога в геноме Loxodonta africana через сервис ENA. Для этого нам понадобится нуклеотидная последовательность гена данного белка (её можно скачать здесь).

Нашлось 2 гомолога взятого белка в контигах генома Loxodonta africana. Лучшая находка с e-value = E-133 имеет Identity 90%. В ней содержится 1 интрон длиной 2672 пар оснований. Общая длина находки - 3041, координаты найденного гена в контиге - 5357767<-5354727. Выравнивание исходного гена и гена из слона представлено ниже.

	     407 : CCATGGTATTCCACTACATGAGCATCACCATCTTGGTCTTTTTTATGATGGAGATC :     462
           ||| ||| |||||||||||||||||| ||||||||  |||||||||||||||| | 
 5357767 : CCA-GGTGTTCCACTACATGAGCATCGCCATCTTGACCTTTTTTATGATGGAGGTT : 5357713

     463 : ATCTTTAAATTATTTGTCTTCCGCCTGGAGTTCTTTCACCACAAGTTTGAGATCCT :     518
             ||||||| |||||||||||||||||||||||||||||||||||||||| |||||
 5357712 : TCCTTTAAAATATTTGTCTTCCGCCTGGAGTTCTTTCACCACAAGTTTGAAATCCT : 5357657

     519 : GGATGCCGTCGTGGTGGTGGTCTCATTCATCCTCGACATTGTCCTCCTGTTCCAGG :     574
           ||||||| ||||||||||||| || |||||||||||||| |||||||||||||  |
 5357656 : GGATGCCATCGTGGTGGTGGTTTCCTTCATCCTCGACATCGTCCTCCTGTTCCGAG : 5357601

     575 : AGCACCAGTTTGAGGCTCTGGGCCTGCTGATTCTGCTCCGGCTGTGGCGGGTGGCC :     630
           ||||  ||||||||||||| |||||| |||||||||||||||||||||||||||||
 5357600 : AGCATGAGTTTGAGGCTCTTGGCCTGTTGATTCTGCTCCGGCTGTGGCGGGTGGCC : 5357545

     631 : CGGATCATCAATG  >>>> Target Intron 1 >>>>  GGATTATCATCTCA :     657
           || ||| |||| |++         2672 bp         ++|||| || ||||||
 5357544 : CGCATCGTCAACGgt.........................agGGATCATTATCTCA : 5354846

     658 : GTTAAGACACGTTCAGAACGGCAACTCTTAAGGTTAAAACAGATGAATGTACAATT :     713
           |||||||||||||||||||||||||||||||||||||||||||||||| |||||||
 5354845 : GTTAAGACACGTTCAGAACGGCAACTCTTAAGGTTAAAACAGATGAATATACAATT : 5354790

     714 : GGCCGCCAAGATTCAACACCTTGAGTTCAGCTGCTCTGAGAAGG-AACAAGA-AAT :     767
           |||||||||||| ||||||||||||||||||||| ||||||||| || | || |  
 5354789 : GGCCGCCAAGATCCAACACCTTGAGTTCAGCTGCACTGAGAAGGTAAGAGGACACC : 5354734

     768 : TGAAAGA :     774
           | | |||
 5354733 : TCAGAGA : 5354727

Поиск некодирующих последовательностей программой BLAST

Возьмём геном бактерии Chlorobium tepidum TLS и найдём в нём все гены, кодирующие тРНК. Для этого введём в поисковую строку NCBI Nucleotide следующий запрос: (Chlorobium tepidum TLS tRNA) AND "Chlorobium tepidum TLS"[porgn:__txid194439] . Всего было найдено 54 результата, из которых 50 - гены тРНК (то, что мы ищем). Также можно было искать по специальной базе данных тРНК. Из всех тРНК была выбрана триптофановая (ссылка на неё в NCBI).

Сначала был проведён megablast по данной тРНК, получилось 100 результатов с хорошим e-value, из этих результатов 12 принадлежат организмам того же порядка (Chlorobiaceae), что и Chlorobium tepidum TLS. Теперь используем blastn - более медленный алгоритм для поиска гомологичных нуклеотидных последовательностей. Сначала запустим blastn со стандартными параметрами. После 15 минут ожидания получилось 151 хит с худшим e-value 5e-22. Если же запустить blastn с изменёнными параметрами (Match/Mismatch scores - 1/-1, Word size - 7), то получится 231 находка с худшим e-value 4e-19.

Стоит отметить, что все алгоритмы на первые позиции (с наилучшими score и e-value) поставили находки из наиболее родственных организмов (из одного и того же порядка), однако megablast справился с этой задачей лучше всех. Также megablast нашёл больше последовательностей со 100% сходством и работал намного быстрее, чем blastn.