В данном практикуме использовалась последовательность WS1944_COI_F_C11_WSBS-Seq-4-08-15.fasta, полученная в Практикуме 6. По ней был запущен алгоритм blastn (Somewhat similar sequences) с описанными ниже параметрами (параметры заданы по умолчанию).
Результаты работы программы blastn
![]() |
Поскольку у первых двух находок покрытие (Query cover) равно 100% и 99% соответственно, а процент совпадений (Ident) равен 99%, можно предположить, что наш белок принадлежит Polycirus medusa. Таксономия: Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Annelida; Polychaeta; Scolecida; Terebellida; Terebellidae; Polycirrus. Можно также отметить, что первые 50 находок относятся к представителям семейства Terebellidae.
Затем был запущен алгоритм blastх с описанными ниже параметрами.
Результаты работы программы blastх
![]() |
Как видно из результатов работы программы blastx, выданная последовательность является митохондриальным геном и кодирует субъединицу 1 цитохром-С оксидазы дыхательного комплекса IV (терминального каталитического комплекса митохондриального окислительного фосфорилирования). Цитохром С играет ключевую роль в аэробном метаболизме. У человека MT-CO1 (COX1) кодируется геном MT-CO1, а у других эукариот генами COX1, CO1 или COI.
Для определения возможной таксономии прочитанной последовательности использованы 5 находок с лучшими параметрами E-value, Query cover и Ident. Было построено их выравнивание в jalview вместе с исходной последовательностью (она находится снизу).
![]() |
Было проведено сравнение трех алгоритмов — blastn (somewhat similar sequences), discontigious megablast (more dissimilar sequences) и megablast (highly similar sequences). Поиск был ограничен семейством Terebellidae (taxid:32261).
Алгоритм поиска | Database | Max target sequences | Expect treshold | Word size | Max matches in a query range | Match/ Mismatch scores | Gap costs |
blastn | Nucleotide collection (nr/nt) | 1000 | 10 | 11 | 0 | 2;-3 | 5;2 |
discontigious megablast | Nucleotide collection (nr/nt) | 1000 | 10 | 16 | 0 | 2;-3 | 5;2 |
megablast | Nucleotide collection (nr/nt) | 1000 | 10 | 16 | 0 | 2;-3 | 5;2 |
Алгоритм поиска | Количество находок | Max score | Q-cover | E-value | Ident | Результат | ||||
---|---|---|---|---|---|---|---|---|---|---|
лучш. | худш. | лучш. | худш. | лучш. | худш. | лучш. | худш. | |||
blastn | 115 | 1121 | 176 | 100% | 48% | 0.0 | 9 E-46 | 99% | 73% | blastn.txt |
discontigious megablast | 89 | 654 | 39.2 | 99% | 11% | 0.0 | 2 E-04 | 84% | 72% | mega_disc.txt |
megablast | 13 | 1147 | 268 | 100% | 49% | 0.0 | 1 E-73 | 99% | 82% | megablast.txt |
Для обработки были выбраны три белка:
Мы хотим узнать, есть ли у этой бактерии белки, гомологичные выбранным нами трем белкам. Для этого при помощи программы makeblastdb была создана локальная база данных на основе генома Amoeboaphelidium protococarum, записанного в файле сборки X5.fasta. Затем запускаестя программа tblastn, которая в созданной нуклеотидной базе данных ищет последовательности, кодирующие белки, гомологичные подающимся на вход. Выдача алгоритма для трёх выбранных белков приведена на рисунках ниже.
Меньше всего нахоодок обнаружено для белка TERT_HUMAN. Процент совпадения на всех трех найденных последовательностях невысок (порядка 20-30%). Значит, в организме Amoeboaphelidium protococcarum отсутствуют гомологи данного белка.
![]() |
Чуть больше находок обнаружено для белка COX1_HUMAN (это митохондриальный белок, поэтому ожидать большого количества находок не приходится). Длина выравнивания лучшей находки - 220 нуклеотидов, E-value 6.29 e-65. Процент совпадения для найденных последовательностей невысок (максимум 54%). Предположительно, данные выравнивания недостаточно хороши и в ядерном геноме организма Amoeboaphelidium protococcarum отсутствуют белки, выполняющие аналогичные функции.
![]() |
Больше всего находок обнаружено для белка PABP2_HUMAN. Параметры лучшей находки: процент совпадения равен 62%, длина выравнивания 86 нуклеотидов, что составляет 1/3 от длины белка, E-value 4 е-29. На наш взгляд, находку данного качества нельзя считать гомологом нашего белка в организме Amoeboaphelidium protococcarum.
![]() |
Для поиска был выбран unplaced-717 из сборки генома Х5. Его длина составляет 46913 п.н., следовательно, на нем вполне может поместиться ген. Мы запустили по поиск его гомологов по базе данных при помощи программы blastx. Выбранный нами участок имеет очень большую длину, поэтому нас не должно смущать, что Q-cover=3%. Это означает только, что кодирующая последовательность занимает три процента от всего участка.
Судя по результатам, на выбранном нами участке имеется ген, кодирующий белок Фосфоглицератмутазу.
Результаты работы blastx: