Поиск по сходству(blast)

Меню

На главную

Третий семестр

Задание 2

Последовательность гена циклооксигеназы 1 из 6 практикума(ссылка) использовалась для сравнения разных алгоритмов blast.(Табл.1.)
Количество находок увеличено до 1000, чтобы можно было увидеть разницу между их числом, полученным с помощью разных алгоритмов. Чтобы число находок попадало в 1000, надо сузить поиск до рода или вида. Лучшие находки имеют сходство 99% и e-value 0. Разницы между discontiguous megablast и blastn внутри вида лучшей находки не видно: оба выдают одни и те же 36 последовательностей. Внутри рода также нет различий. Перебором результатов blastn без ограничений по организму найден род, в котором больше 10 находок и есть хотя бы две различные в разных алгоритмах blast: Amphipholis.

Алгоритм	Число находок	E-value для худшей	Сходство для худшей
megablast	8	2е-94	79%
blastn	26	8,5	100%
discontiguous megablast	22	5е-79	75%

Меньше всего находок в megablast, потому что он ищет последовательности, которые очень похожи и скорее всего гомологичны. (Рис.1.) В выдаче blastn могут быть находки, которые не претендуют на гомологичность искомой. В нем ищутся все похожие последовательности любой длины больше длины слова(11 нуклеотидов). Последние 4 находки как раз такими являются - у них очень большой e-value. В discontiguous megablast тоже ищутся гомологичные последовательности, но длина слова 28, это ослабляет требование к схожести, потому что больше мест для различий между последовательностями. Также можно заметить, что все находки megablast содержатся в выдачах discontiguous megablast и blastn, но с другими значениями score и e-value.

Рис.1. Результат поиска в blastn. Галочками отмечены 8 последовательностей, найденных megablast. Красным прямоугольником выделены короткие последовательности, которые не нашел discontiguous megablast.

Задание 3.2

Надо было проверить наличие гомологов пяти белков, которые скорее всего есть у эукариот, в геноме организма X5. На рисунке 2 представлены искомые белки, их идентификаторы в UniProt и их функции.

Рис.2 Таблица с информацией о белках.

Для каждого белка были найдены похожие последовательности в геноме X5. (Рис.3.)

Janus kinase 2

Находок много, но у них всех процент идентичности ниже 50. Таблица с находками как-то хитро отсортирована: не по уменьшению e-value, score или процента идентичности. На рисунке 2 приведены первые несколько последовательностей. Красными рамочками выделены две последовательности, у которых одинаковая длина, количество гэпов и процент идентичности, но они соответствуют разным последовательностям в геноме X5, и поэтому отличаются score и e-value. Лучший e-value у первой находки. Наибольший процент идентичности - 48,39% - у находки из серидины списка длиной 31 нуклеотид. Можно считать, что нет достоверных находок и что белок X5 сильно отличается от человеческого JAK2. (Рис.2.)

Рис.3. Предполагаемые гомологи JAK2 в геноме X5.

40S Ribosomal protein S2

Всего три находки и две из них отличаются только координатами в геноме X5. Их высокий процент идентичности и низкий e-value позволяют предположить, что в геноме X5 есть похожий белок малой субъединицы рибосомы. (Рис.4.)
Третья находка имеет слишком большой e-value и короткая.

Рис.4. Предполагаемые гомологи RS2 в геноме X5.

Tubulin alpha-1A

Процент идентичности первых двух находок и их нулевой e-value свидетельствуют о том, что у X5 почти такой же тубулин, как и у человека. Их различают 31 и 32 SNP для первой и второй находки соответственно. Остальные находки либо содержат гэпы, либо слишком короткие. (Рис.5)

Рис.5. Гомологи TUBA1A в геноме X5.

Protein argini N-methyltransferase 1

E-value для первых двух находок низкий, но процент идентичности и количество мисматчей оставляют желать лучшего.(Рис.6.) Белок аргинин N-метилтрансферазы 1 у X5 лишь отдаленно напоминает такой же у человека.

Рис.6. Гомологи ANM1 в геноме X5.

Alcohol dehydrogenase

Ситуация аналогична предыдущей.(Рис.7.)

Рис.7. Гомологи ADH7 в геноме X5.