Была взята консенсусная последовательность из предыдущего практикума для определения функции белка кодируемой этой последовательностью, а также ее возможной таксономии.
Для поиска последовательностей был использован blastn с алгоритмом megablast по умолчанию.
Выдача megablast показана на рисунке 1, таксономия на рисунке 2. По находкам имеющим наибольший вес можно сделать вывод, что последовательность кодирует H3 структурные хроматинные гистоны у морских огурцов(Dendrochirotida). У каких конкретно огурцов сказать точно нельзя, но верочтнее всего у семейства Psolidae.
Благодаря множественному выравниванию можно судить о принадлежности к семейству, из-за большого числа консервативных участков.
Было произведено сравнение трех алгоритмов blastn по умолчанию, blastn с чувствительно настроенными параметрами и megablast.
Сначала было произведен анализ выдачи разных алгоритмов поиска для белков морских огурцов с ограничением по таксону Dendrochirotida. Параметры поиска представлены на рисунках ниже.
Число находок | |
Алгоритм | Число находок |
---|---|
megablast | 20 |
blastn | 30 |
blastn чувствительный | 36 |
Выходы программ изображены на рисунке 6. Blastn добавил несколько весомых находок по сравнению с megablast. При этом его чувствительная версия "перемешала" значимость находок, при этом добавив лишь одну ценную и кучу мусора в конец списка.
Рисунок 6. Выдача слева на право: megablast, blastn, blastn чувствительный, при этом каждый следующий сравнивается с пердыдущим.
Красным цветом выделены новые находки, зеленым - между какими находками они "нашлись", желтым - перествновки в списке, фиолетовым - новые находки в конце списка.
Было произведено сравнение трех алгоритмов blastn по умолчанию, blastn с чувствительно настроенными параметрами и megablast.
Поиск аналогичный предыдущему, с теми же параметрами поиска, только теперь для вируса(NC_009965.1), ограничение по таксону - Rudiviridae. Параметры поиска представлены на рисунках 3,4,5 выше.
Число находок | |
Алгоритм | Число находок |
---|---|
megablast | 9 |
blastn | 22 |
blastn чувствительный | 23 |
Выходы программ изображены на рисунке 7. Blastn добавил несколько находок с покрытием больше 10%, по сравненю с megablast, где таких находок одна. При этом его чувствительная версия "перемешала" значимость находок и уменьшила у всех покрытие опыть до 1%, добавив парочку находок.
Рисунок 7. Выдача слева на право: megablast, blastn, blastn чувствительный, при этом каждый следующий сравнивается с пердыдущим.
Красным цветом выделены новые находки, зеленым - между какими находками они "нашлись", желтым - перествновки в списке, фиолетовым - новые находки в конце списка.
Мной были выбраны следующие 3 белка для поиска гомологов у Amoeboaphelidium protococcarum:
1)Актин(UniProtKB - P63267). Поскольку он является основным компонентом цитоскелета эукариот, можно предполагать его сильную консервативность.
2)Убиквитин(UniProtKB - P62975). Латинское название белка означает "вездесущий", что само по себе не однозначно намекает на его консервативность. Также он очень важен, поскольку участвует в процуссе внутриклеточной деградации других белков.
3)Hsp90(UniProtKB - P07900). Белок-шаперон. Помогает другим белкам принимать третичную структуру, стабилизирует белки во время теплового стресса.
Команды:
makeblastdb -in X5.fasta -dbtype nucl -out prot_db
tblastn -query ubi.fasta -db prot_db -out ubi.out
tblastn -query hsp90.fasta -db prot_db -out hsp90.out
tblastn -query actin.fasta -db prot_db -out actin.out
Результаты описаны в таблице 3.
Число находок | |||
Параметр | Актин | Убиквитин | Hsp90 |
---|---|---|---|
Число находок | 16 | 13 | 6 |
Лучшая находка | scaffold-444 scaffold-17 |
scaffold-378 | unplaced-64 |
Процент гэпов в лучшей находке | 0 | 0 | 5 |
E-value лучшей находки | 0 | 5e-46 | 0 |
Identity лучшей находки | 92% | 96% | 66% |
Score лучшей находки в битах | 733 | 144 | 583 |
Гомология | гомологичен | гомологичен | гомологичен |
Объяснения гомологии | Сразу 3 находки с нулевым E-value, высокие проценты идентичности и полное отсутствие гэпов. | Высокий процент идентичности, 100% покрытие, низкий E-value, все говорт о гомологии. | Не смотря на низкое сходство, в выравнивании имеются хорошо выраженные консервативные части и E-value = 0, почти исключает случайность такой находки. |
Был выбран scaffold-40 из сборки генома Amoeboaphelidium protococcarum. Как видно из выдачи BLASTX на рисунке 8, все находки попали в интервал, который находится приблизительно между 844 и 1533 нуклеотидами в скеффолде. Поэтому я запустил BLASTX только для этого уастка, чтобы покрятия выглядили адекватно. Из находок(рис 9) нельзя точно сказать какой ген попал P-loop или Fe-S cluster, поскольку все Identity около 50-60%. Но я склоняюсь больше к гену кластера, поскольку находка "Saccharomyces cerevisiae YIL003W CFD1 Highly conserved iron-sulfur cluster binding protein localized in the cytoplasm" имеет наибольшее покрытие в сочетании с наибольшим Identity.
Этот белок служит помогает созревать экстрамитохондриальным Fe-S-белкам, а также участвует в дальнейшей доставке готовых кластеров к комплексам белков.