Практикум 6. Nucleotide BLAST
Данный практикум посвящён алгоритму BLAST для нуклеотидных последовательностей, при помощи которого для заданной последовательности были определены функция и таксономическая принадлежность, а также были проведены поиск гена белка в неаннотированном скэффолде и сравнение геномов двух родственных бактерий.
Определение функции и таксономии нуклеотидной последовательности
В этом задании предлагалось при помощи BLAST выяснить, какую функцию выполняет и геному какого организма принадлежит нуклеотидная последовательность, установленная при анализе хроматограммы в одном из предыдущих практикумов (ссылка на fasta-файл). О данной последовательности неизвестно, является ли она кодирующей и насколько похожие последовательности имеются в базах данных, поэтому поиск логично было бы осуществлять непосредственно по нуклеотидным последовательностям и искать хоть сколько-нибудь схожие. В соответствии с этим с целью поиска был применён алгоритм blastn (в варианте собственно blastn, не megablast) для базы данных Nucleotide collection (nt). Параметры, с которыми запускался алгоритм, приведены ниже:
Search Parameters Program blastn Word size 11 Expect value 0.05 Hitlist size 500 Match/Mismatch scores 2,-3 Gapcosts 5,2 Low Complexity Filter Yes Filter string L;m; Genetic Code 1
С результатом работы BLAST можно ознакомиться здесь.
Абсолютное большинство последовательностей (особенно среди таковых с высоким процентом идентичности) в выдаче являются частичными последовательностями гена, кодирующего 18S рРНК. Из 9 последовательностей с наибольшим процентом идентичности (от 97.88% до 91.15% - показатели, свидетельствующие о гомологичности) 7 получены из представителей рода Loxosomella (мелкие морские прикреплённые беспозвоночные из типа Entoprocta, клада Lophotrochozoa). Чтобы оценить, действительно ли таксономическую принадлежность исследуемой последовательности можно определить на уровне рода, требовалось сравнить выданные BLAST значения Per. Ident с таковыми, характерными для двух гомологичных изучаемой последовательнстей из представителей рода Loxosomella. Для этого:
• были скачаны 7 вышеупомянутых последовательностей из выдачи BLAST, принадлежащих Loxosomella (NCBI GenBank AC: GU125747, MG028645, MG028643, GU125751, KM192152, GU125749,
JF692209)
• для них, а также для исследуемой последовательности с использованием Jalview и Clustal было построено множественное выравнивание
• из выравнивания были вырезаны все позиции, не включающие нуклеотиды из изучаемой последовательности (она сама также была удалена) - получилось выравнивание участков, гомологичных
изучаемой последовательности
• для оставшихся участков были построены попарные выравнивания, для которых определены проценты идентичности
• с помощью Excel были найдены минимальное, среднее и максимальное значения процента идентичности - они составили 90.09%, 92.47% и 98.4% соответственно
Можно видеть, что процент идентичности изучаемой последовательности гомологам из разных видов Loxosomella (от 97.88% до 91.15%) находится в пределах характерного для представителей этого рода; значит, достаточно адекватным будет предположение о принадлежности последовательности представителю рода Loxosomella.
Итак, вывод: предположительно, исследуемая последовательность - участок гена 18S рРНК из Loxosomella sp.
Поиск генов белков в неаннотированной нуклеотидной последовательности
Для этой цели была выбрана последовательность одного из скэффолдов, полученных при секвенировании генома мха Physcomitrium patens, описание сборки которого приведено в предыдущем практикуме (ссылка на fasta-файл). Так как задача состояла в поиске кодирующей последовательности, был применён алгоритм blastx (запрос сначала транслируется в последовательность белка, затем проводится поиск по белковой базе данных - в данном случае по RefSeq, чтобы уменьшить избыточность БД и, как следствие, длительность работы алгоритма; из поиска также были исключены последовательности белков, принадлежащих представителям рода Physcomitrium). Далее приведены параметры BLAST:
Search Parameters Program blastx Word size 6 Expect value 0.05 Hitlist size 500 Gapcosts 11,1 Matrix BLOSUM62 Low Complexity Filter Yes Filter string L; Genetic Code 1 Window Size 40 Threshold 21 Composition-based stats 2
Выдача BLAST приведена здесь. Большинство из найденных белков называлось GDSL esterase/lipase At4g10955-like и принадлежало различным сосудистым растениям, некоторые из них были только предсказанными (PREDICTED); процент идентичности - до 40%, что вполне может свидетельствовать о гомологии. Здесь можно ознакомиться с примером полученного локального выравнивания. Стоит отметить, что последовательность-запрос входит в значительную часть выравниваний по координатам примерно от 2020 до 2700; учитывая, что исходная нуклеотидная последовательность имела длину 10303 bp, получается, что ген найденного белка полностью находится в выбранном скэффолде.
Вывод: в изучаемой последовательности присутствует ген, кодирующий фермент эстеразу/липазу, который гидролизует жиры.
Интепретация карты локального сходства гомологичных хромосом двух бактерий
Были выбраны геномные сборки двух бактерий, принадлежащих к одному роду - Mycobacterium haemophilum DSM 44634 strain ATCC 29548 и Mycobacterium avium subsp. avium strain DSM 44156 (RefSeq AC: NZ_CP011883 и NZ_CP046507 соответственно). Далее при помощи megablast для них были построены выравнивания и карта локального сходства (см. рисунок 1).
Можно заметить, что у M. avium по сравнению с M. haemophilum присутствует множество мелких повторов. То, что некоторые линии на карте лежат на «побочной» диагонали (как, например, крупный участок слева вверху), объясняется инверсиями. Соответствие начального участка генома M. haemophilum конечному участку генома M. avium (и наоборот) вызвано тем, что хромосомы у бактерий кольцевые, и в данном случае они были секвенированы, начиная с разных позиций. Из существенных перестроек можно ещё отметить транслокацию (соответствие участка 1.5 - 1.7 Mbp генома M. haemophilum участку 2.0 - 2.2 Mbp генома M. avium, также с инверсией) и относительно небольшую инсерцию/делецию (участок на «главной» диагонали, 2.85 Mbp по геному M. haemophilum).