BLAST
1. Определение таксономии
Запустили megablast по базе данных nucleotides с последовательностью, которую мы получили после обработки хроматограммы.
Посмотрим ближе на выравнивание этой последовательности.
2. Сравнение режимов BLAST
Первый запуск
Запустили три бласта с разными режимами: blastn (слово длиной 15), blastn (слово длиной 7), megablast. Немного различий было замечено. Чувствительный и обычный blastn вообще не отличались друг от друга. Отличие же megablast от blastn заключалось в том, что находки megablast имеют меньшее покрытие, зато больший процент идентичности.
Второй запуск
Запустили blast в трех режимах с последовательностью lcl|JQ287645.1_cds_AFU91980.1_1
Здесь уже были заметны существенные различия в работе разных режимов. Megablast дал только один результат. Различие чувствительного и обычного blastn заключалось в том, что чувствительный смог найти последовательности с большим покрытием и сравнимым процентом идентичности.
3. Поиск гомологов в геноме
Набор команд:
makeblastdb -in X5.fasta -dbtype nucl
tblastn -query atp.fa -db X5.fasta > atp.out
ATPA_HUMAN
Альфа-субъединица АТФ-синтазы должна быть высококонсервативной среди эукариот. И действительно её близкие гомологи находятся в сборке. В двух скэффолдах e-value настолько маленький, что записывается, как ноль. Процент identity 77%. А покрытие примерно 70% длины белка (смотрел на координаты выравнивания).
Ссылка на файл
UBB_HUMAN
Полиубикивитин-B он входит в состав множества каскадов, он необходим для деградации белков. Он находится в этом случае с identity 98%, а покрытие 100%!
Ссылка на файл
ENOA_HUMAN
Альфа-енолаза фермент гликолиза. Также должен быть весьма консервативен. Находятся его гомологи с identity 68% и маленьким e-value (0), покрытие 100%.
Ссылка на файл
4. Поиск последовательности белка в контиге
Для выполнения задания была найдена сборка Macaca fuscata у которой не аннотирован геном. Из неё был взят контиг BFBW01000002.1. ID этого контига я использовал, как query в blastx по группе Primates в базе данных Reference proteins. В топе результатов были разные изоформы белка agrin. Это протеогликан, участвующий в формировании связей между нейронами и мускульными волокнами. Все они найдены с достаточно большим процентом идентичности.
©Бакулин Артемий, 2018