Определение таксономии и функции нуклеотидной последовательности
Для выполнения данного задания была выбрана консенсусная последовательность из практикума 6. Поиск проводился программой blastn (для поиска сколько–нибудь похожих нуклеотидных последовательностей). Был изменен только один параметр — Word Size на 7 (остальные параметры оставил неизменными).
Что получили?
Некоторая часть списка находок изображена на рисунке 2. Результаты поиска с помощью blastn говорят о том, что данная нуклеотидная последовательность, скорее всего, кодирует рибосомальную РНК. Если быть точным, то исходя из того, что все первые 100 результатов с довольно большими E–value кодируют 18S rRNA, которая является структурным компонентом малой субъединицы рибосомы эукариот, то и исследуемая последовательность также, скорее всего, кодирует 18S rRNA. Она довольно консервативна, ее активно используют в филогенетике. Что касается таксономии организма, из которого был получен образец ДНК, то можно сказать, что его происхождение следующее:
Metazoa Eumetazoa Bilateria Platyhelminthes Cestoda Eucestoda Diphyllobothriidea DiphyllobothriidaeЭто предположение выдвинуто из–за того, что у четырех первых организмов с лучшими выравниваниями эти таксоны оказались максимально совпавшими. Также это вытекает из филогенетического древа, изображенного на рисунке 3.

Выравнивания
1. Выравнивание исследуемой последовательности (Query) и KY552791.1 (Sbjct) из Pyramicocephalus phocarum
Query 1 TGACGGAAGGGCACCACCAGGAGTGGAGCCTGCGGCTTAATTTGACTCAACACGGGAAAA 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1240 TGACGGAAGGGCACCACCAGGAGTGGAGCCTGCGGCTTAATTTGACTCAACACGGGAAAA 1299 Query 61 CTCACCCGGCCCGGACACTGTGAGGATTGACAGATTGATAGCTCTTTCTTGATTTGGTGG 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1300 CTCACCCGGCCCGGACACTGTGAGGATTGACAGATTGATAGCTCTTTCTTGATTTGGTGG 1359 Query 121 TTGGTGGTGCATGGCCGTTCTTAGTTGGTGGAGCGATTTGTCTGGTTAATTCCGATAACG 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1360 TTGGTGGTGCATGGCCGTTCTTAGTTGGTGGAGCGATTTGTCTGGTTAATTCCGATAACG 1419 Query 181 AACGAGACTCTAGCCTGCTAATTAGTACGCCTGTCCTCTGTTCCTGTGCTGGCGGTGCTT 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1420 AACGAGACTCTAGCCTGCTAATTAGTACGCCTGTCCTCTGTTCCTGTGCTGGCGGTGCTT 1479 Query 241 TGGTGAAACTGCTCACATATGCCGACTGCTATCGGGACGCGTTCTTGCGTGCGTTGCGAG 300 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1480 TGGTGAAACTGCTCACATATGCCGACTGCTATCGGGACGCGTTCTTGCGTGCGTTGCGAG 1539 Query 301 CTCCTCGTGGGCGAGTGGCGTGTGTAGGGGCGTGAACTGTGGTGGAAGGTGTGTGCGGTG 360 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1540 CTCCTCGTGGGCGAGTGGCGTGTGTAGGGGCGTGAACTGTGGTGGAAGGTGTGTGCGGTG 1599 Query 361 GGTCCGGTGCTTGCCTCCGGGTACGGCGCAGGTGTGTCTACTTCTTAGAGGGACAAGCAT 420 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1600 GGTCCGGTGCTTGCCTCCGGGTACGGCGCAGGTGTGTCTACTTCTTAGAGGGACAAGCAT 1659 Query 421 TACGAATGTGTACGAAATTGAGCAATAACAGGTCTGTGATGCCCTTAGATGTCCGGGGCC 480 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1660 TACGAATGTGTACGAAATTGAGCAATAACAGGTCTGTGATGCCCTTAGATGTCCGGGGCC 1719 Query 481 GCACGCGCGCTACAATGACGGTGCCAACGAGTCTGACCTTCTGGCCCGAAAGGGTTGGGG 540 |||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||| Sbjct 1720 GCACGCGCGCTACAATGACGGTGCCAACGAGTCTGACCTTCTGGCCCGAAAGGGTT-GGG 1778 Query 541 CAAACTGGTCAATCACCGTCATGACAGGGATCGGGGCTTGGAATTGTTCCCCGTGAACGA 600 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1779 CAAACTGGTCAATCACCGTCATGACAGGGATCGGGGCTTGGAATTGTTCCCCGTGAACGA 1838 Query 601 GGAATTCCTAGTAAGTGCAAGTCATAAGCTTGCGCTGATTACGTCCCTGCCCTTTGTACA 660 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1839 GGAATTCCTAGTAAGTGCAAGTCATAAGCTTGCGCTGATTACGTCCCTGCCCTTTGTACA 1898 Query 661 CACCGCCCGTCGCTACTACCGATTGAATGGTTTASTAAGGTCCTCGGATTGGCGCCATTG 720 |||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||| Sbjct 1899 CACCGCCCGTCGCTACTACCGATTGAATGGTTTAGTAAGGTCCTCGGATTGGCGCCATTG 1958 Query 721 CAGTATCACCCGCAAGGTTGGTGCTCGACAGGTGCCGAGAAGACGACCAAACYTGATCAY 780 |||||||||||||||||||||||||||||||||||||||||||||||||||| |||||| Sbjct 1959 CAGTATCACCCGCAAGGTTGGTGCTCGACAGGTGCCGAGAAGACGACCAAACTTGATCAT 2018 Query 781 TTAGA 785 ||||| Sbjct 2019 TTAGA 2023
2. Выравнивание исследуемой последовательности (Query) и AB512013.1 (Sbjct) из Diphyllobothrium nihonkaiense
Query 1 TGACGGAAGGGCACCACCAGGAGTGGAGCCTGCGGCTTAATTTGACTCAACACGGGAAAA 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1329 TGACGGAAGGGCACCACCAGGAGTGGAGCCTGCGGCTTAATTTGACTCAACACGGGAAAA 1388 Query 61 CTCACCCGGCCCGGACACTGTGAGGATTGACAGATTGATAGCTCTTTCTTGATTTGGTGG 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1389 CTCACCCGGCCCGGACACTGTGAGGATTGACAGATTGATAGCTCTTTCTTGATTTGGTGG 1448 Query 121 TTGGTGGTGCATGGCCGTTCTTAGTTGGTGGAGCGATTTGTCTGGTTAATTCCGATAACG 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1449 TTGGTGGTGCATGGCCGTTCTTAGTTGGTGGAGCGATTTGTCTGGTTAATTCCGATAACG 1508 Query 181 AACGAGACTCTAGCCTGCTAATTAGTACGCCTGTCCTCTGTTCCTGTGCTGGCGGTGCTT 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1509 AACGAGACTCTAGCCTGCTAATTAGTACGCCTGTCCTCTGTTCCTGTGCTGGCGGTGCTT 1568 Query 241 TGGTGAAACTGCTCACATATGCCGACTGCTATCGGGACGCGTTCTTGCGTGCGTTGCGAG 300 ||| ||||||||||||||||| |||||||||| |||||||||||||||||| | ||||| Sbjct 1569 TGGCGAAACTGCTCACATATGTCGACTGCTATGGGGACGCGTTCTTGCGTGTGCCGCGAG 1628 Query 301 CTCCTCGTGGGCGAGTGGCGTGTGTAGGGGCGTGAACTGTGGTGGAAGGTGTGTGCGGTG 360 |||||||||||| ||||||||| |||||||||||||||||||| | ||| |||||||||| Sbjct 1629 CTCCTCGTGGGCAAGTGGCGTGCGTAGGGGCGTGAACTGTGGTAGGAGGCGTGTGCGGTG 1688 Query 361 GGTCCGGTGCTTGCCTCCGGGTACGGCGCAGGTGTGTCTACTTCTTAGAGGGACAAGCAT 420 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1689 GGTCCGGTGCTTGCCTCCGGGTACGGCGCAGGTGTGTCTACTTCTTAGAGGGACAAGCAT 1748 Query 421 TACGAATGTGTACGAAATTGAGCAATAACAGGTCTGTGATGCCCTTAGATGTCCGGGGCC 480 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1749 TACGAATGTGTACGAAATTGAGCAATAACAGGTCTGTGATGCCCTTAGATGTCCGGGGCC 1808 Query 481 GCACGCGCGCTACAATGACGGTGCCAACGAGTCTGACCTTCTGGCCCGAAAGGGTTGGGG 540 |||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||| Sbjct 1809 GCACGCGCGCTACAATGACGGTGCCAACGAGTCTGACCTTCTGGCCCGAAAGGGTT-GGG 1867 Query 541 CAAACTGGTCAATCACCGTCATGACAGGGATCGGGGCTTGGAATTGTTCCCCGTGAACGA 600 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1868 CAAACTGGTCAATCACCGTCATGACAGGGATCGGGGCTTGGAATTGTTCCCCGTGAACGA 1927 Query 601 GGAATTCCTAGTAAGTGCAAGTCATAAGCTTGCGCTGATTACGTCCCTGCCCTTTGTACA 660 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1928 GGAATTCCTAGTAAGTGCAAGTCATAAGCTTGCGCTGATTACGTCCCTGCCCTTTGTACA 1987 Query 661 CACCGCCCGTCGCTACTACCGATTGAATGGTTTASTAAGGTCCTCGGATTGGCGCCATTG 720 |||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||| Sbjct 1988 CACCGCCCGTCGCTACTACCGATTGAATGGTTTAGTAAGGTCCTCGGATTGGCGCCATTG 2047 Query 721 CAGTATCACCCGCAAGGTTGGTGCTCGACAGGTGCCGAGAAGACGACCAAACYTGATCAY 780 |||||||| ||||||||||||||||||||||||||||||||||||||||||| |||||| Sbjct 2048 CAGTATCAGCCGCAAGGTTGGTGCTCGACAGGTGCCGAGAAGACGACCAAACTTGATCAT 2107 Query 781 TTAGAGGAAGTAAA 794 |||||||||||||| Sbjct 2108 TTAGAGGAAGTAAA 2121
3. Выравнивание исследуемой последовательности (Query) и DQ181944.2 (Sbjct) из Diphyllobothrium ditremum
Query 1 TGACGGAAGGGCACCACCAGGAGTGGAGCCTGCGGCTTAATTTGACTCAACACGGGAAAA 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 127 TGACGGAAGGGCACCACCAGGAGTGGAGCCTGCGGCTTAATTTGACTCAACACGGGAAAA 186 Query 61 CTCACCCGGCCCGGACACTGTGAGGATTGACAGATTGATAGCTCTTTCTTGATTTGGTGG 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 187 CTCACCCGGCCCGGACACTGTGAGGATTGACAGATTGATAGCTCTTTCTTGATTTGGTGG 246 Query 121 TTGGTGGTGCATGGCCGTTCTTAGTTGGTGGAGCGATTTGTCTGGTTAATTCCGATAACG 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 247 TTGGTGGTGCATGGCCGTTCTTAGTTGGTGGAGCGATTTGTCTGGTTAATTCCGATAACG 306 Query 181 AACGAGACTCTAGCCTGCTAATTAGTACGCCTGTCCTCTGTTCCTGTGCTGGCGGTGCTT 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 307 AACGAGACTCTAGCCTGCTAATTAGTACGCCTGTCCTCTGTTCCTGTGCTGGCGGTGCTT 366 Query 241 TGGTGAAACTGCTCACATATGCCGACTGCTATCGGGACGCGTTCTTGCGTGCGTTGCGAG 300 ||| ||||||||||||||||| |||||||||||||||||||||||||||| | ||||| Sbjct 367 TGGCGAAACTGCTCACATATGTCGACTGCTATCGGGACGCGTTCTTGCGTATGCCGCGAG 426 Query 301 CTCCTCGTGGGCGAGTGGCGTGTGTAGGGGCGTGAACTGTGGTGGAAGGTGTGTGCGGTG 360 |||||||||||||||||| ||| |||||||||||||||||||| | ||| |||||||||| Sbjct 427 CTCCTCGTGGGCGAGTGGTGTGCGTAGGGGCGTGAACTGTGGTAGGAGGCGTGTGCGGTG 486 Query 361 GGTCCGGTGCTTGCCTCCGGGTACGGCGCAGGTGTGTCTACTTCTTAGAGGGACAAGCAT 420 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 487 GGTCCGGTGCTTGCCTCCGGGTACGGCGCAGGTGTGTCTACTTCTTAGAGGGACAAGCAT 546 Query 421 TACGAATGTGTACGAAATTGAGCAATAACAGGTCTGTGATGCCCTTAGATGTCCGGGGCC 480 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 547 TACGAATGTGTACGAAATTGAGCAATAACAGGTCTGTGATGCCCTTAGATGTCCGGGGCC 606 Query 481 GCACGCGCGCTACAATGACGGTGCCAACGAGTCTGACCTTCTGGCCCGAAAGGGTTGGGG 540 |||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||| Sbjct 607 GCACGCGCGCTACAATGACGGTGCCAACGAGTCTGACCTTCTGGCCCGAAAGGGTT-GGG 665 Query 541 CAAACTGGTCAATCACCGTCATGACAGGGATCGGGGCTTGGAATTGTTCCCCGTGAACGA 600 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 666 CAAACTGGTCAATCACCGTCATGACAGGGATCGGGGCTTGGAATTGTTCCCCGTGAACGA 725 Query 601 GGAATTCCTAGTAAGTGCAAGTCATAAGCTTGCGCTGATTACGTCCCTGCCCTTTGTACA 660 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 726 GGAATTCCTAGTAAGTGCAAGTCATAAGCTTGCGCTGATTACGTCCCTGCCCTTTGTACA 785 Query 661 CACCGCCCGTCGCTACTACCGATTGAATGGTTTASTAAGGTCCTCGGATTGGCGCCATTG 720 |||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||| Sbjct 786 CACCGCCCGTCGCTACTACCGATTGAATGGTTTAGTAAGGTCCTCGGATTGGCGCCATTG 845 Query 721 CAGTATCACCCGCAAGGTTGGTGCTCGACAGGTGCCGAGAAGACGACCAAACYTGATCAY 780 |||||||| ||||||||||||||||||||||||||||||||||||||||||| |||||| Sbjct 846 CAGTATCAGCCGCAAGGTTGGTGCTCGACAGGTGCCGAGAAGACGACCAAACTTGATCAT 905 Query 781 TTAGAGGAAGTAAA 794 |||||||||||||| Sbjct 906 TTAGAGGAAGTAAA 919
4. Выравнивание исследуемой последовательности (Query) и KF218251.1 (Sbjct) из Diphyllobothrium latum
Query 1 TGACGGAAGGGCACCACCAGGAGTGGAGCCTGCGGCTTAATTTGACTCAACACGGGAAAA 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1347 TGACGGAAGGGCACCACCAGGAGTGGAGCCTGCGGCTTAATTTGACTCAACACGGGAAAA 1406 Query 61 CTCACCCGGCCCGGACACTGTGAGGATTGACAGATTGATAGCTCTTTCTTGATTTGGTGG 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1407 CTCACCCGGCCCGGACACTGTGAGGATTGACAGATTGATAGCTCTTTCTTGATTTGGTGG 1466 Query 121 TTGGTGGTGCATGGCCGTTCTTAGTTGGTGGAGCGATTTGTCTGGTTAATTCCGATAACG 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1467 TTGGTGGTGCATGGCCGTTCTTAGTTGGTGGAGCGATTTGTCTGGTTAATTCCGATAACG 1526 Query 181 AACGAGACTCTAGCCTGCTAATTAGTACGCCTGTCCTCTGTTCCTGTGCTGGCGGTGCTT 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1527 AACGAGACTCTAGCCTGCTAATTAGTACGCCTGTCCTCTGTTCCTGTGCTGGCGGTGCTT 1586 Query 241 TGGTGAAACTGCTCACATATGCCGACTGCTATCGGGACGCGTTCTTGCGTGCGTTGCGAG 300 ||| ||||||||||||||||| |||||||||| ||||||||||||||||| | ||||| Sbjct 1587 TGGCGAAACTGCTCACATATGTCGACTGCTATTGGGACGCGTTCTTGCGTATGCCGCGAG 1646 Query 301 CTCCTCGTGGGCGAGTGGCGTGTGTAGGGGCGTGAACTGTGGTGGAAGGTGTGTGCGGTG 360 |||||||||||||||||| ||| |||||||||||||||||||| | ||| |||||||||| Sbjct 1647 CTCCTCGTGGGCGAGTGGTGTGCGTAGGGGCGTGAACTGTGGTAGGAGGCGTGTGCGGTG 1706 Query 361 GGTCCGGTGCTTGCCTCCGGGTACGGCGCAGGTGTGTCTACTTCTTAGAGGGACAAGCAT 420 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1707 GGTCCGGTGCTTGCCTCCGGGTACGGCGCAGGTGTGTCTACTTCTTAGAGGGACAAGCAT 1766 Query 421 TACGAATGTGTACGAAATTGAGCAATAACAGGTCTGTGATGCCCTTAGATGTCCGGGGCC 480 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1767 TACGAATGTGTACGAAATTGAGCAATAACAGGTCTGTGATGCCCTTAGATGTCCGGGGCC 1826 Query 481 GCACGCGCGCTACAATGACGGTGCCAACGAGTCTGACCTTCTGGCCCGAAAGGGTTGGGG 540 |||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||| Sbjct 1827 GCACGCGCGCTACAATGACGGTGCCAACGAGTCTGACCTTCTGGCCCGAAAGGGTT-GGG 1885 Query 541 CAAACTGGTCAATCACCGTCATGACAGGGATCGGGGCTTGGAATTGTTCCCCGTGAACGA 600 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1886 CAAACTGGTCAATCACCGTCATGACAGGGATCGGGGCTTGGAATTGTTCCCCGTGAACGA 1945 Query 601 GGAATTCCTAGTAAGTGCAAGTCATAAGCTTGCGCTGATTACGTCCCTGCCCTTTGTACA 660 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1946 GGAATTCCTAGTAAGTGCAAGTCATAAGCTTGCGCTGATTACGTCCCTGCCCTTTGTACA 2005 Query 661 CACCGCCCGTCGCTACTACCGATTGAATGGTTTASTAAGGTCCTCGGATTGGCGCCATTG 720 |||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||| Sbjct 2006 CACCGCCCGTCGCTACTACCGATTGAATGGTTTAGTAAGGTCCTCGGATTGGCGCCATTG 2065 Query 721 CAGTATCACCCGCAAGGTTGGTGCTCGACAGGTGCCGAGAAGACGACCAAACYTGATCAY 780 |||||||| ||||||||||||||||||||||||||||||||||||||||||| |||||| Sbjct 2066 CAGTATCAGCCGCAAGGTTGGTGCTCGACAGGTGCCGAGAAGACGACCAAACTTGATCAT 2125 Query 781 TTAGAGGAAGTAAA 794 |||||||||||||| Sbjct 2126 TTAGAGGAAGTAAA 2139
- | обозначает полное соответствие нуклеотидов
- обозначает схожесть нуклеотидов (например, G входит в класс S)
- обозначает полное несоответствие нуклеотидов
По–видимому, в интерпретации хроматограммы из практикума 6 была допущена ошибка: был добавлен лишний гуанин на позицию 547 (по последовательности Query). Возможно, конечно, это не ошибка, так как инсерция одного нуклеотида для рРНК не так страшна, как для белка.
Изучаемая последовательность с достаточно большой вероятностью может относиться к виду Pyramicocephalus phocarum, так как практически никаких разногласий между двумя последовательностями (изучаемой и из этого вида) найдено не было. А вот от последовательностей из организма рода Diphyllobothrium искомая последовательность отличается довольно сильно: примерно в области с 241 по 360 позицию находится по 12 несовпадений.
Сравнение результатов работы алгоритмов BLAST
Последовательность из практикума 6
Для данной последовательности были запущены 3 программы: megablast (для очень схожих последовательностей), blastn с обычными параметрами (для довольно разных, но все–же схожих последовательностей) и blastn с чувствительными параметрами (для хоть сколько–нибудь схожих последовательностей). Некоторые параметры запусков описаны в таблице 1. megablast оказался самой быстрой программой, а blastn с обычными параметрами оказался быстрее, чем blastn с модифицированными параметрами.
Результат работы программ немного удивил. Почему–то, при запуске blastn с чувствительными параметрами находок получилось меньше, чем в обычном blastn и даже megablast. Когда же провели фильтрацию результатов (учитывали только те последовательности, у которых процент идентичности находился между 60% и 95%, а также E–value было меньше, чем 0,001), то получили следующие количества находок: megablast — 22, blastn обычный — 34, blastn чувтсвительный — 27. На рисунках 4, 5, 6 изображены результаты работы программ megablast'а, обычного blastn'а и чувтсвительного blastn'а.
Хочется заметить, что megablast упустил целый ряд важных находок. Например, он не учел запись Spirometra erinaceieuropaei voucher ZJ-JX 18S ribosomal RNA gene, partial sequence и записи других штаммов этого вида. А результатов чувствительного blastn оказалось меньше, чем у blastn с обычными настройками из-за того, что blastn с обычными настройками наткнулся на сборку генома Schistocephalus solidus strain NST_G2, а с измененными параметрами — нет.
Алгоритм | Word Size | Match/Mismatch scores | Число находок |
---|---|---|---|
MegaBlast | 28 | 1, -2 | 922 |
Blastn стандартный | 11 | 2, -3 | 962 |
Blastn чувствительный | 7 | 1, -1 | 866 |
Последовательность CDS Thermus phage P23–77
В данной части задания нужно было провести такое же сравнение разных алгоритмов BLAST, как и в предыдущей части задания. Только вот для сравнения был взят кодирущий регион 4378–4899 NC_013197.1 из генома Thermus phage P23–77. Результат можно найти в таблице 2.
Все результаты работы можно найти на рисунках После того, как мы отфильтровали результаты (Identity 60%–95%, E–value < 0,001), оказалось, что megablast не нашел ничего, blastn с обычными параметрами выдал 8 находок, а чувствительный blastn — 19.
Алгоритм | Word Size | Match/Mismatch scores | Число находок |
---|---|---|---|
MegaBlast | 28 | 1, -2 | 1 |
Blastn стандартный | 11 | 2, -3 | 576 |
Blastn чувствительный | 7 | 1, -1 | 540 |
Интересно, что чувствительный blastn нашел запись Kitasatospora setae KM-6054 DNA, complete genome, то есть запись того организма, с которым я работал в практикумах первого семестра.
Выводы
Для быстрого поиска практически идентичных последовательностей подходит megablast, blastn с обычными параметрами хорошо подходит для поиска схожих последовательностей, а вот blastn с чувствительными параметрами подходит для поиска сколько–нибудь схожих последовательностей, но не всегда.
Гомологи белков в неаннотированном геноме
В данном задании рассматривается неаннотированный геном Amoeboaphelidium protococcarum. Так как было необходимо найти гомологи белков в геноме, то я пользовался tblastn. Последовательности белков я получил с сайта UniProt (View Format FASTA (canonical)).
ACT_YEAST — актин из Saccharomyces cerevisiae. Это глобулярный белок, который при сборке друг с другом дает микрофиламенты — основу цитоскелета.
SUCB_YEAST — β субъединица сукцинил-КоА-синтетазы (SCS) из S. cerevisiae. SCS — фермент, катализирующий обратимую реакцию превращения сукцинил КоА в сукцинат (одновременно образуя ГТФ или АТФ из ГДФ или АДФ и фосфата). Этот фермент принимает участие в цикле Кребса.
DPOD_YEAST — каталитическая субъединица ДНК полимеразы δ (Polδ) из S. cerevisiae. Polδ — фермент, осуществляющий синтез отстающей цепочки ДНК и ее пруфридинг.
Результаты
ACT_YEAST: лучший результат среди всех трех белков по качеству и количеству совпадений. Итог: положительный – есть гомолог, вероятно, выполняющий ту же функцию. Самое маленькое E-value — 0 (скэффолды 444, 514 и 17). Всего 18 находок. Покрытие для лучшего результата стопроцентное, гэпов нет.
SUCB_YEAST: худший результат среди трех рассматриваемых белков. Итог положительный. Количество совпадений — 4, лучшее E-value — 3 * 1084 (скэффолд 361). Покрытие для лучшей находки — 92%, гэпов мало.
DPOD_YEAST: средний результат. Итог положительный. Нашлось 8 похожих последовательностей. Две последовательности (скэффолды 81 и 529) дали выравнивания с нулевым E-value. Процент покрытия для первого результата — 97%, гэпов очень мало.
Поиск гена белка в контиге
Для выполнения данного задания был выбран контиг JDSB01000005.1 из неаннотированного генома Aquila chrysaetos canadensis.
Результат изображен на рисунке 11. Можно сказать, что в контиге находится ген, кодирующий убиквитинлигазу (E3 ubiquitin ligase), так как результаты хорошие (лучшее E-value — 7 * 10-14.
Дополнительные материалы









