BLAST

~mashkovskayaav

1.Таксономия и функция прочтённой нуклеотидной последовательности (практикум 6)

• Для выполнения задания была взята консенсусная последовательность:

              >EMBOSS_001                                                 
              ggaatatggtgtggtttagccgggactggtttaagattnntaattcgttttgagttagga
              actgctggtgcccttcttggtgatgatcacttatataatgttattgttacggcgcatGCC
              TTTGTAATGATTTTTTTTANANTTANGCCTTTAANAATTGNGGGANTTGGAAACTGANTA
              NTTCCCCTTTTAATTGGAGCACCCGATATAAGGTTTCCGCGTATGAATAATATAANATTT
              TGGTTGTTGCCTCCTTCTTTTATTCTACTTATATNTTCNACTTTAATAGAAGGAGGTGCG
              GGGACTGGNTGAACNGTATATCCTCCTCTTTCAGGTGCAATTGGACATGGGGGATGTTCG
              GTANACTTAGCAATTTTTTCTTTACATTTAGCAGGGATGTCTTCTTTGTTAGGTGNTNTT
              AATTTTATTACNACTATTTTTAATATACGTNCNCCTGNNNTGACAANGGACCGATTGAGс
              ttatttgtatgatcngttctanttactgctttccttttattactatctcttcctgtacta
              gcgggtgccattaccatgcttttaactgatcggaattttaatacnaggttttttgatcct
              gctggagggggagatcc                                           
    
   

• Результат поиска с помощью blastn (на изображении представлены лучшие находки):

• Очень многие находки обладали высоким уровнем идентичности и параметром E-value, равным 0.0. Далее будут рассматриваться три лучшие по весу находки;

• Для лучшей визуализации было построено множественное выравнивание консенсусной последовательности и трех находок:ССЫЛКА

Из множественного выравнивания видно, что по сравнению с консенсусной последовательности возникает:

4 замены при выравнивании с первой последовательностью (организм Paracoryphella islandica)
11 замен при выравнивании со второй последовательностью (организм Chlamylla intermedia)
11 замен при выравнивании с третьей последовательностью (организм Chlamylla borealis)

Остальные несоответствия появляются из-за неопределенных нуклеотидов N консенсусной последовательности.

• Исходя из полученных результатов можно предположить, что нуклеотидный участок был взят из организма Paracoryphella islandica.

Выравнивание консенсусной последовательности и последовательности из генома Paracoryphella islandica:

Alignment statistics for match #1

Query  1    GGAATATGGTGTGGTTTAGCCGGGACTGGTTTAAGATTNNTAATTCGTTTTGAGTTAGGA  60
        |||||||| |||||||||||||||||||||||||||||  ||||||||||||||||||||
Sbjct  19   GGAATATGATGTGGTTTAGCCGGGACTGGTTTAAGATTGCTAATTCGTTTTGAGTTAGGA  78

Query  61   ACTGCTGGTGCCCTTCTTGGTGATGATCACTTATATAATGTTATTGTTACGGCGCATGCC  120
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct  79   ACTGCTGGTGCCCTTCTTGGTGATGATCACTTATATAATGTTATTGTTACGGCGCATGCC  138

Query  121  TTTGTAATGAttttttttANANTTANGCCTTTAANAATTGNGGGANTTGGAAACTGANTA  180
       ||||||||||||||||||| | ||| |||||||| ||||| |||| ||||||||||| ||
Sbjct  139  TTTGTAATGATTTTTTTTATAGTTATGCCTTTAATAATTGGGGGATTTGGAAACTGAATA  198

Query  181  NTTCCCCTTTTAATTGGAGCACCCGATATAAGGTTTCCGCGTATGAATAATATAANATTT  240
        |||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||
Sbjct  199  GTTCCCCTTTTAATTGGAGCACCCGATATAAGGTTTCCGCGTATGAATAATATAAGATTT  258

Query  241  TGGTTGTTGCCTCCTTCTTTTATTCTACTTATATNTTCNACTTTAATAGAAGGAGGTGCG  300
       |||||||||||||||||||||||||||||||||| ||| |||||||||||||||||||||
Sbjct  259  TGGTTGTTGCCTCCTTCTTTTATTCTACTTATATCTTCTACTTTAATAGAAGGAGGTGCG  318

Query  301  GGGACTGGNTGAACNGTATATCCTCCTCTTTCAGGTGCAATTGGACATGGGGGATGTTCG  360
       |||||||| ||||| |||||||||||||||||||||||||||||||||||||||||||||
Sbjct  319  GGGACTGGGTGAACTGTATATCCTCCTCTTTCAGGTGCAATTGGACATGGGGGATGTTCG  378

Query  361  GTANACTTAGCAATTTTTTCTTTACATTTAGCAGGGATGTCTTCTTTGTTAGGTGNTNTT  420
       ||| ||||||||||||||||||||||||||||||||||||||||||||||||||| | ||
Sbjct  379  GTAGACTTAGCAATTTTTTCTTTACATTTAGCAGGGATGTCTTCTTTGTTAGGTGCTATT  438

Query  421  AATTTTATTACNACTATTTTTAATATACGTNCNCCTGNNNTGACAANGGACCGATTGAG-  479
       ||||||||||| ||||| |||||||||||| | ||||   |||||| ||||||||| || 
Sbjct  439  AATTTTATTACTACTATCTTTAATATACGTTCTCCTGAAATGACAATGGACCGATTAAGT  498

Query  480  TTATTTGTATGATCNGTTCTANTTACTGCTTTCCTTTTATTACTATCTCTTCCTGTACTA  539
       |||||||| ||||| |||||| ||||||||||||||||||||||||||||||||||||||
Sbjct  499  TTATTTGTCTGATCTGTTCTAGTTACTGCTTTCCTTTTATTACTATCTCTTCCTGTACTA  558

Query  540  GCGGGTGCCATTACCATGCTTTTAACTGATCGGAATTTTAATACNAGGTTTTTTGATCCT  599
       |||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||
Sbjct  559  GCGGGTGCCATTACCATGCTTTTAACTGATCGGAATTTTAATACTAGGTTTTTTGATCCT  618

Query  600  GCTGGAGGGGGAGATCC  616
       |||||||||||||||||
Sbjct  619  GCTGGAGGGGGAGATCC  635

• Консенсусная последовательность предположительно является геном, кодирующим первую субъединицу цитохром оксидазы (cytochrome oxidase subunit I - COI):

     gene            <1..>657
                     /gene="COI"
     CDS             <1..>657
                     /gene="COI"
                     /codon_start=1
                     /transl_table=5
                     /product="cytochrome oxidase subunit I"
                     /protein_id="AUT17683.1"
                     /translation="TLYVLLGMWCGLAGTGLSLLIRFELGTAGALLGDDHLYNVIVTA
                     HAFVMIFFMVMPLMIGGFGNWMVPLLIGAPDMSFPRMNNMSFWLLPPSFILLMSSTLM
                     EGGAGTGWTVYPPLSGAIGHGGCSVDLAIFSLHLAGMSSLLGAINFITTIFNMRSPEM
                     TMDRLSLFVWSVLVTAFLLLLSLPVLAGAITMLLTDRNFNTSFFDPAGGGDPILYQHL
                     F"

 

Paracoryphella islandica - морской моллюск


2. Сравнение трех разных вариантов blast

Часть 1

• Для консенсусной последовательности были проведены три типа Blast с разными параметрами, которые представлены в Таблице 1:

Таблица 1: Сравнение параметров вариантов blast

# Параметры Число находок Лучшая находка Худшая находка
megablast стандартные:
Word size: 28
Match/Mismatch: 1,-2
Organism: Paracoryphellidae (taxid:2068089)
12 Ident: 95%
E-value: 0.0
Max score: 1007
Ident: 81%
E-value: 4e-161
Max score: 560
blastn стандартные:
Word size: 11
Match/Mismatch: 2,-3
Organism: Paracoryphellidae (taxid:2068089)
20 Ident: 95%
E-value: 0.0
Max score: 986
Ident: 78%
E-value: 1e-148
Max score: 517
blastn sensitive Word size: 7
Match/Mismatch: 1,-4
Organism: Paracoryphellidae (taxid:2068089)
Expect threshold: 0.0001 - необходимо для исключения плохих выравниваний с высоким E-value
20 Ident: 95%
E-value: 0.0
Max score: 952
Ident: 87%
E-value: 5e-14
Max score: 68.3

А) Megablast:

• Графическое изображение выравниваний

• Список находок

Б) Blastn

• Графическое изображение выравниваний

• Список находок

В) Blastn sensitive

• Графическое изображение выравниваний

• Список находок

• Из полученных результатов можно сделать следующие выводы:

- при использовании Megablast находятся лишь выравнивания с наибольшим весом, число находок наименьшее;

- Blastn со стандартными параметрами выдает большее число выравниваний, чем megablast; при этом все выравнивания, найденные megablast, находятся и при использовании blastn; blastn также находит некоторые неплохие выравнивания, которые megablast пропускает;

- Blastn sensitive находит выравнивания более строго, чем blastn: у выравнивания в blastn sensitive e-value может быть в десятки раз больше, чем у этого же выравнивания в blastn;

Часть 2

• Для выполнения задания была взята последовательность некодирующей тРНК из митохондриального генома Bombyx mori.

Запись в Feature table:

  tRNA            717..784
                  /anticodon="(pos:749..751,aa:Ala)"
                  /inference="non-experimental evidence, no additional
 

Последовательность:

 >tRNA                                                       
 AGGATTTTAGTTTAAAAAATAAACATTTGATTTGCAATCAAAAATTATTGAAATATCAAT
 TTATCTTATATAATTTATATATATATAT                                
 

• Для поиска применялись те же параметры для трех типов Blast, что указаны в Таблице 1;

А) Megablast: 3 находки

• Графическое изображение выравниваний

• Список находок

Комментарий:

Если проводить поиск по сем.Bombycidae, к которому принадлежит тутовый шелкопряд, то находится много неинформативных выравниваний с Identity=100%; для решения проблемы из поиска был исключен род Bombyx:

• Для Blastn и Blastn sensitive устанавливаются те же ограничения по таксонам;


Б) Blastn: 12 находок + параметр Expect threshold=0.001, чтобы исключить плохие выравнивания;

• Графическое изображение выравниваний

• Список находок


В) Blastn sensitive: 9 находок; Expect threshold=0.001

• Графическое изображение выравниваний

• Список находок


3. Поиск гомологов белка в неаннотированном геноме (локальный BLAST)

• Использовался геном огранизма Amoeboaphelidium protococcarum (файл X5.fasta). Вначале была создана локальная база данных с помощью следующей команды:

makeblastdb -in X5.fasta -dbtype nucl

• Поиск гомологов осуществлялся для белков: TERT_SCHPO, TBB_NEUCR и PRPC_EMENI;

• Для поиска гомологов использовались аминокислотные последоватльености белков, из-за этого применяется tblastn.
Общая форма запроса:

tblastn -query sequencename.fasta -db X5.fasta > sequencename.out


А) TERT_SCHPRO

- Описание: теломераза - фермент-рибонуклеопроеин, восстанавливающий длину хромосомы при репликации; имеется у большинства эукариот

- Лучшая находка в геноме: scaffold-17; Score(bits): 108; E-value: 1e-23;

- Результат: в полученном выравнивании содержатся лишь короткие схожие участки, процент идентичности низкий (25%); из этого можно сделать вывод, что гомологии нет


Б) TBB_NEUCR

- Описание: тубулин, белок, основной компонент микротрубочек

- Лучшая находка в геноме: scaffold-26; Score(bits):693; E-value:0.0;

- Результат: в полученном участке выравнивания практически нет гепов, процент идентичности очень высок (87%), кроме того, показатель E-value равен нулю; наблюдается гомология


В) PRPC_EMENI

- Описание: митохондриальная цитратсинтаза

- Лучшая находка в геноме: scaffold-693; Score(bits):393; E-value:6e-121

- Результат: довольно неоднозначная находка; процент идентичности средний (56%), в выравнивании наблюдается довольно много гепов, однако в центральной части выравнивания есть очень схожий участок; вывод о гомологии сделать сложно


4. Поиск генов белка в контиге

• В этом задании было необходимо найти гомологичные последовательности белка по нуклеотидной последовательности одного из контигов организма Amoeboaphelidium protococcarum, т.е. использовался blastx.

• контиг: unplaced-307

• Поиск осуществлялся в базе данных Reference proteins

• Ставилось ограничение на таксон Fungi, поскольку известно, что Amoeboaphelidium protococcarum - родственник грибов (выбор таксона намного повышает скорость поиска в blastx)

• Результат:

• Для всех находок с наименьшим E-value границы выравнивания примерно совпадают: 26443-23843; можно предположить, что кодирующий участок последвательности распологается примерно в этих рамках;

• Кодируемый белок - лизин аминопептидаза;

Аминопептидазы катализируют отщепление концевой аминокислоты пептида; лизин аминопептидаза, соответственно, более специфична к реакции отщепления концевых лизинов;


5. Карта локального сходства геномов двух бактерий

• Для выполнения задания были выбраны полные геномы бактерий рода Bifidobacterium (бифидобактерии): Bifidobacterium longum (NC_004307) и Bifidobacterium animalis (NC_012815);

• Выравнивание получено программой blastn, параметры стандартные;

• Из карты локального сходства видно, что в геномах есть довольно много гомологичных участков, некоторые из них инвертированы;


©Машковская Анна, 2018