1.Таксономия и функция прочтённой нуклеотидной последовательности (практикум 6)
• Для выполнения задания была взята консенсусная последовательность:
>EMBOSS_001 ggaatatggtgtggtttagccgggactggtttaagattnntaattcgttttgagttagga actgctggtgcccttcttggtgatgatcacttatataatgttattgttacggcgcatGCC TTTGTAATGATTTTTTTTANANTTANGCCTTTAANAATTGNGGGANTTGGAAACTGANTA NTTCCCCTTTTAATTGGAGCACCCGATATAAGGTTTCCGCGTATGAATAATATAANATTT TGGTTGTTGCCTCCTTCTTTTATTCTACTTATATNTTCNACTTTAATAGAAGGAGGTGCG GGGACTGGNTGAACNGTATATCCTCCTCTTTCAGGTGCAATTGGACATGGGGGATGTTCG GTANACTTAGCAATTTTTTCTTTACATTTAGCAGGGATGTCTTCTTTGTTAGGTGNTNTT AATTTTATTACNACTATTTTTAATATACGTNCNCCTGNNNTGACAANGGACCGATTGAGс ttatttgtatgatcngttctanttactgctttccttttattactatctcttcctgtacta gcgggtgccattaccatgcttttaactgatcggaattttaatacnaggttttttgatcct gctggagggggagatcc
• Результат поиска с помощью blastn (на изображении представлены лучшие находки):
• Очень многие находки обладали высоким уровнем идентичности и параметром E-value, равным 0.0. Далее будут рассматриваться три лучшие по весу находки;
• Для лучшей визуализации было построено множественное выравнивание консенсусной последовательности и трех находок:ССЫЛКА
Из множественного выравнивания видно, что по сравнению с консенсусной последовательности возникает:
4 замены при выравнивании с первой последовательностью (организм Paracoryphella islandica)
11 замен при выравнивании со второй последовательностью (организм Chlamylla intermedia)
11 замен при выравнивании с третьей последовательностью (организм Chlamylla borealis)
Остальные несоответствия появляются из-за неопределенных нуклеотидов N консенсусной последовательности.
• Исходя из полученных результатов можно предположить, что нуклеотидный участок был взят из организма Paracoryphella islandica.
Выравнивание консенсусной последовательности и последовательности из генома Paracoryphella islandica:
Alignment statistics for match #1 Query 1 GGAATATGGTGTGGTTTAGCCGGGACTGGTTTAAGATTNNTAATTCGTTTTGAGTTAGGA 60 |||||||| ||||||||||||||||||||||||||||| |||||||||||||||||||| Sbjct 19 GGAATATGATGTGGTTTAGCCGGGACTGGTTTAAGATTGCTAATTCGTTTTGAGTTAGGA 78 Query 61 ACTGCTGGTGCCCTTCTTGGTGATGATCACTTATATAATGTTATTGTTACGGCGCATGCC 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 79 ACTGCTGGTGCCCTTCTTGGTGATGATCACTTATATAATGTTATTGTTACGGCGCATGCC 138 Query 121 TTTGTAATGAttttttttANANTTANGCCTTTAANAATTGNGGGANTTGGAAACTGANTA 180 ||||||||||||||||||| | ||| |||||||| ||||| |||| ||||||||||| || Sbjct 139 TTTGTAATGATTTTTTTTATAGTTATGCCTTTAATAATTGGGGGATTTGGAAACTGAATA 198 Query 181 NTTCCCCTTTTAATTGGAGCACCCGATATAAGGTTTCCGCGTATGAATAATATAANATTT 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||| |||| Sbjct 199 GTTCCCCTTTTAATTGGAGCACCCGATATAAGGTTTCCGCGTATGAATAATATAAGATTT 258 Query 241 TGGTTGTTGCCTCCTTCTTTTATTCTACTTATATNTTCNACTTTAATAGAAGGAGGTGCG 300 |||||||||||||||||||||||||||||||||| ||| ||||||||||||||||||||| Sbjct 259 TGGTTGTTGCCTCCTTCTTTTATTCTACTTATATCTTCTACTTTAATAGAAGGAGGTGCG 318 Query 301 GGGACTGGNTGAACNGTATATCCTCCTCTTTCAGGTGCAATTGGACATGGGGGATGTTCG 360 |||||||| ||||| ||||||||||||||||||||||||||||||||||||||||||||| Sbjct 319 GGGACTGGGTGAACTGTATATCCTCCTCTTTCAGGTGCAATTGGACATGGGGGATGTTCG 378 Query 361 GTANACTTAGCAATTTTTTCTTTACATTTAGCAGGGATGTCTTCTTTGTTAGGTGNTNTT 420 ||| ||||||||||||||||||||||||||||||||||||||||||||||||||| | || Sbjct 379 GTAGACTTAGCAATTTTTTCTTTACATTTAGCAGGGATGTCTTCTTTGTTAGGTGCTATT 438 Query 421 AATTTTATTACNACTATTTTTAATATACGTNCNCCTGNNNTGACAANGGACCGATTGAG- 479 ||||||||||| ||||| |||||||||||| | |||| |||||| ||||||||| || Sbjct 439 AATTTTATTACTACTATCTTTAATATACGTTCTCCTGAAATGACAATGGACCGATTAAGT 498 Query 480 TTATTTGTATGATCNGTTCTANTTACTGCTTTCCTTTTATTACTATCTCTTCCTGTACTA 539 |||||||| ||||| |||||| |||||||||||||||||||||||||||||||||||||| Sbjct 499 TTATTTGTCTGATCTGTTCTAGTTACTGCTTTCCTTTTATTACTATCTCTTCCTGTACTA 558 Query 540 GCGGGTGCCATTACCATGCTTTTAACTGATCGGAATTTTAATACNAGGTTTTTTGATCCT 599 |||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||| Sbjct 559 GCGGGTGCCATTACCATGCTTTTAACTGATCGGAATTTTAATACTAGGTTTTTTGATCCT 618 Query 600 GCTGGAGGGGGAGATCC 616 ||||||||||||||||| Sbjct 619 GCTGGAGGGGGAGATCC 635
• Консенсусная последовательность предположительно является геном, кодирующим первую субъединицу цитохром оксидазы (cytochrome oxidase subunit I - COI):
gene <1..>657 /gene="COI" CDS <1..>657 /gene="COI" /codon_start=1 /transl_table=5 /product="cytochrome oxidase subunit I" /protein_id="AUT17683.1" /translation="TLYVLLGMWCGLAGTGLSLLIRFELGTAGALLGDDHLYNVIVTA HAFVMIFFMVMPLMIGGFGNWMVPLLIGAPDMSFPRMNNMSFWLLPPSFILLMSSTLM EGGAGTGWTVYPPLSGAIGHGGCSVDLAIFSLHLAGMSSLLGAINFITTIFNMRSPEM TMDRLSLFVWSVLVTAFLLLLSLPVLAGAITMLLTDRNFNTSFFDPAGGGDPILYQHL F"
Paracoryphella islandica - морской моллюск
2. Сравнение трех разных вариантов blast
Часть 1
• Для консенсусной последовательности были проведены три типа Blast с разными параметрами, которые представлены в Таблице 1:
Таблица 1: Сравнение параметров вариантов blast
# | Параметры | Число находок | Лучшая находка | Худшая находка |
megablast | стандартные: Word size: 28 Match/Mismatch: 1,-2 Organism: Paracoryphellidae (taxid:2068089) |
12 | Ident: 95% E-value: 0.0 Max score: 1007 |
Ident: 81% E-value: 4e-161 Max score: 560 |
blastn | стандартные: Word size: 11 Match/Mismatch: 2,-3 Organism: Paracoryphellidae (taxid:2068089) |
20 | Ident: 95% E-value: 0.0 Max score: 986 |
Ident: 78% E-value: 1e-148 Max score: 517 |
blastn sensitive | Word size: 7 Match/Mismatch: 1,-4 Organism: Paracoryphellidae (taxid:2068089) Expect threshold: 0.0001 - необходимо для исключения плохих выравниваний с высоким E-value |
20 | Ident: 95% E-value: 0.0 Max score: 952 |
Ident: 87% E-value: 5e-14 Max score: 68.3 |
А) Megablast:
• Графическое изображение выравниваний
• Список находок
Б) Blastn
• Графическое изображение выравниваний
• Список находок
В) Blastn sensitive
• Графическое изображение выравниваний
• Список находок
• Из полученных результатов можно сделать следующие выводы:
- при использовании Megablast находятся лишь выравнивания с наибольшим весом, число находок наименьшее;
- Blastn со стандартными параметрами выдает большее число выравниваний, чем megablast; при этом все выравнивания, найденные megablast, находятся и при использовании blastn; blastn также находит некоторые неплохие выравнивания, которые megablast пропускает;
- Blastn sensitive находит выравнивания более строго, чем blastn: у выравнивания в blastn sensitive e-value может быть в десятки раз больше, чем у этого же выравнивания в blastn;
Часть 2
• Для выполнения задания была взята последовательность некодирующей тРНК из митохондриального генома Bombyx mori.
• Запись в Feature table:
tRNA 717..784 /anticodon="(pos:749..751,aa:Ala)" /inference="non-experimental evidence, no additional
• Последовательность:
>tRNA AGGATTTTAGTTTAAAAAATAAACATTTGATTTGCAATCAAAAATTATTGAAATATCAAT TTATCTTATATAATTTATATATATATAT
• Для поиска применялись те же параметры для трех типов Blast, что указаны в Таблице 1;
А) Megablast: 3 находки
• Графическое изображение выравниваний
• Список находок
• Комментарий:
Если проводить поиск по сем.Bombycidae, к которому принадлежит тутовый шелкопряд, то находится много неинформативных выравниваний с Identity=100%; для решения проблемы из поиска был исключен род Bombyx:
• Для Blastn и Blastn sensitive устанавливаются те же ограничения по таксонам;
Б) Blastn: 12 находок + параметр Expect threshold=0.001, чтобы исключить плохие выравнивания;
• Графическое изображение выравниваний
• Список находок
В) Blastn sensitive: 9 находок; Expect threshold=0.001
• Графическое изображение выравниваний
• Список находок
3. Поиск гомологов белка в неаннотированном геноме (локальный BLAST)
• Использовался геном огранизма Amoeboaphelidium protococcarum (файл X5.fasta). Вначале была создана локальная база данных с помощью следующей команды:
makeblastdb -in X5.fasta -dbtype nucl
• Поиск гомологов осуществлялся для белков: TERT_SCHPO, TBB_NEUCR и PRPC_EMENI;
• Для поиска гомологов использовались аминокислотные последоватльености белков, из-за этого
применяется tblastn.
Общая форма запроса:
tblastn -query sequencename.fasta -db X5.fasta > sequencename.out
А) TERT_SCHPRO
- Описание: теломераза - фермент-рибонуклеопроеин, восстанавливающий длину хромосомы при репликации; имеется у большинства эукариот
- Лучшая находка в геноме: scaffold-17; Score(bits): 108; E-value: 1e-23;
- Результат: в полученном выравнивании содержатся лишь короткие схожие участки, процент идентичности низкий (25%); из этого можно сделать вывод, что гомологии нет
Б) TBB_NEUCR
- Описание: тубулин, белок, основной компонент микротрубочек
- Лучшая находка в геноме: scaffold-26; Score(bits):693; E-value:0.0;
- Результат: в полученном участке выравнивания практически нет гепов, процент идентичности очень высок (87%), кроме того, показатель E-value равен нулю; наблюдается гомология
В) PRPC_EMENI
- Описание: митохондриальная цитратсинтаза
- Лучшая находка в геноме: scaffold-693; Score(bits):393; E-value:6e-121
- Результат: довольно неоднозначная находка; процент идентичности средний (56%), в выравнивании наблюдается довольно много гепов, однако в центральной части выравнивания есть очень схожий участок; вывод о гомологии сделать сложно
4. Поиск генов белка в контиге
• В этом задании было необходимо найти гомологичные последовательности белка по нуклеотидной последовательности одного из контигов организма Amoeboaphelidium protococcarum, т.е. использовался blastx.
• контиг: unplaced-307
• Поиск осуществлялся в базе данных Reference proteins
• Ставилось ограничение на таксон Fungi, поскольку известно, что Amoeboaphelidium protococcarum - родственник грибов (выбор таксона намного повышает скорость поиска в blastx)
• Результат:
• Для всех находок с наименьшим E-value границы выравнивания примерно совпадают: 26443-23843; можно предположить, что кодирующий участок последвательности распологается примерно в этих рамках;
• Кодируемый белок - лизин аминопептидаза;
Аминопептидазы катализируют отщепление концевой аминокислоты пептида; лизин аминопептидаза, соответственно, более специфична к реакции отщепления концевых лизинов;
5. Карта локального сходства геномов двух бактерий
• Для выполнения задания были выбраны полные геномы бактерий рода Bifidobacterium (бифидобактерии): Bifidobacterium longum (NC_004307) и Bifidobacterium animalis (NC_012815);
• Выравнивание получено программой blastn, параметры стандартные;
• Из карты локального сходства видно, что в геномах есть довольно много гомологичных участков, некоторые из них инвертированы;
©Машковская Анна, 2018