Нуклеотидный blast.

Задание 1.

В первом задании надо было определить таксономию и функцию прочтенной в практикуме 6 последовательности. Последовательность в формате fasta была подана на вход в blastn. Поиск осуществлялся по базе данных Nucleotide collection со стандартными параметрами (порог ожидания - 10; длина слов - 16; балл за совпадение - 2, за не совпадение - -3; штраф за открытие гепа - -5; за расширение гепа - -2) алгоритма megablast (за исключением количества находок: 20000). На рис.1 представлена выдача blastn.

Рис. 1. Часть найденных последовательностей

Всего было 20000 находок, что соответствует максимальному числу, которое можно было выставить в параметрах. E-value лучшей находки - 0.0(первые пять находок имеют такой же), я взяла 7 результат, с E-value = 2e-179 и Querty cover составляющей 100%, а худшей — 4e-100 (но тут, впрочем, query cover составлет 85%, что достаточно не плохо). Все находки являются нуклеотидными последовательностями эукариот.

Большое число находок связано с консервативностью аминокислотной последовательности этого белка в различных группах эукариот.

Для двух лучших найденных последовательностей (Polycirrus medusa и Polycirrus carolinensis) было построено выравнивание с исходной (она первая в выравнивании) в jalview (проект [jvp] доступен по ссылке). Результат можно видеть на Рис.2.

Рис. 2

Рис. 3. Taxonomy
Рис. 4. Polycirrus medusa

Eсли учитывать тот факт, что среди первых 10 находок 2 относились к одному и тому же роду, а именно — Polycirrus medusa, то можно сказать, что последовательность пренадлежит к роду Polycirrus .

Polycirrus medusa показана на рисунке сбоку

Итоговая предполагаемая таксономия (до рода): Eukariota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Annelida; Polychaeta; Scolecida; Terebellida; Terebellidae; Polycirrus.

Задание 2

Было проведено сравнение трех алгоритмов — blastn (somewhat similar sequences), discontigious megablast (more dissimilar sequences), megablast (highly similar sequences).

Таблица 1. Параметры запуска blast

Алгоритм поискаDatabaseMax target
sequences
Expect
treshold
Word sizeMax matches
in a query range
Match/Mismatch
scores
Gap costs
blastnNucleotide collection (nr/nt)100101102;-35;2
discontigious
megablast
Nucleotide collection (nr/nt)100101102;-35;2
megablastNucleotide collection (nr/nt)100102801;-2linear

Таблица 2. Описание параметров худших находок разных алгоритмов

Параметры blastn megablast discontiguous megablast
Число находок >100 >100 >100
Max score 439 531 531
E-value 5е-119 8е-147 8e-147
Identity 79% 79% 79%
Query cover 97% 98% 98%

При помощи blastn были найдены находки, которые не были найдены с помощью megablast и discontiguous megablast. Пример таких последовательностей можно увидеть на фотографии.

Выводы:

  • megablast находит самые достоверные и наиболее близкие гомологи
  • discontigious megablast хорошо работает в плане поиска гомологов, которые прежде уже дивергировали, и имеют как схожие, так и различающиеся участки
  • blastn выдает наиболее широкий спектр последовательностей, которые могут, вообще-то, и не быть гомологами исходной или являться очень далекими гомологами

Задание 3

Мною были выбраны белки HSP7C_HUMAN, TERT_HUMAN, CISY_HUMAN. Их последовательности я скачала и объединила в единый файл формата [fasta].

Я создала локальную базу данных на основе генома Amoeboaphelidium protococarum, записанного в файле X5.fasta, следующим образом:

	makeblastdb -in X5.fasta -dbtype nucl

tblasn — это программа, которая ищет по нуклеотидному банку последовательностей те, что кодируют белки, подающиеся на вход. Ей я и воспользовалась:

	tblastn -query inprot.fasta -db X5.fasta -out blast.out -outfmt 7

Выдача алгоритма для трёх выбранных белков приведена на рисунках ниже.

БелокВыдача tblastn
HSP7C_HUMAN
Белок HSP7C[1] — это белок теплового шока. Репрессор активации транскрипции. Шаперон. Является компонентом PRP19-CDC5L комплекса, который формирует внутренню часть сплайсосомы. Этот белок необходим для активации сплайсинга пре-мРНК. Может выполнять структурную функцию в сборке сплайсосомы, поскольку контактирует со всем остальными ее компонентами. Связывает бактериальные липополисахариды и опосредует ЛПС-идуцированную воспалительную реакцию.

В результате работы tblastn мы получили 22 находки. Первая из них, scaffold-199, представляется достаточно качественной. E-value 0.0, процент покрытия 78.09%. Последний показатель может показаться не очень высоким, но посмотрев отдельно на выравнивание (для этого scaffold-199 нужно было извлечь из файла генома), можно понять, что несовпадения сконцентрированы в конце выравнивания, поэтому, как минимум, здесь можно говорить о гомологии доменов с сохранением функции.
TERT_HUMAN
Белок TERT_HUMAN[2] — это обратная транскриптаза теломеразы. Теломераза — рибонуклеопротеиновый фермент, необходимый для репликации концов хромосомы у большинства эукариот. Активен в прогениторных и раковых клетках, в отличие от обычных соматических, где практически не действует. Является участником процесса элонгации теломер, при этом действуя как обратная транскриптаза: добавляет простые повторные последовательности к концам хромосомы, копируя образец с РНК-компонента фермента. (Катализирует РНК-зависимое удлинение 3'-конца хромосомы с помощью 6-нуклеотидной последовательности 5'-TTAGGG-3'). Каталитический цикл включает связывание праймера, удлинение праймера и высвобождение праймера по достижению конца РНК-затравки или же перенос возникающего продукта с его последующим удлинением. Играет важную роль в процессах старения и предотвращения апоптоза.

На выдаче имеем 3 находки. Лучшая из них — scaffold-17 с E-value 8e-23 и Query cover 26.58%. Посмотрим на выравнивание. Раскраска BLOSUM62 By Conservation.



Выравнивание, конечно, не самого высокого качества, но всё же встречаются участки (100-134, 381-402 и другие), на которых прослеживается сохранение мотивов. В этом случае, думаю, ответ на вопрос о наличии гомологов будет условно положительный. Вполне вероятно, что отдельные домены белка, закодированного в каком-то из генов scaffold-17, сохранили схожую с TERT_HUMAN функцию.
CISY_HUMAN[3]
Белок CISY_HUMAN — это белок митохондриальной цитрат-синтазы. Итак, он принимает участие в метаболизме углеводов, а именно — в цикле трикарбоновых кислот на стадии получения изоцитрата из оксалоацетата.

tblastn выдал 6 находок. Лучшая из них — scaffold-693 с E-value 2e-180 и Query cover 69.5%. Интересно отметить, что с ней по всем параметрам очень схожа третья по счёту находка scaffold-157, только у нее BitScore на единицу меньше, а E-value чуть выше и составляет 5e-180. Также внутри обоих скэффолдов было по две находки (соответственно, 2-ая и 4-ая).
Находки из двух разных скэффолдов имели одинаковые по сути выравнивания с последовательностью CISY_HUMAN, а различались рамкой считывания при формальной трансляции нуклеотидной последовательности скэффолда в последовательность аминокислот. Выравнивания хорошего качества, поэтому, как мне кажется, здесь можно вполне утверждать наличие гомолога. Для отдельно взятого скэффолда (693-ий или 157-ой) первое выравнивание соответствует одной части белка, гомологичного CISY_HUMAN, а второе — другой. Причём эти части в последовательности CISY идут подряд, а в исследуемом геноме разнесены в разные области скэффолда.

Задание 4

Для выполнения задания я выбрала из генома Amoeboaphelidium protococarum скэффолд scaffold-693. Предварительно была получена информация о длинах контигов:

	infoseq X5.fasta -only -name -length

А затем извлечена последовательность подходящего по длине scaffold-693:

	seqret X5.fasta:scaffold-693 -out 693.fasta

По этой последовательности был запущен алгоритм megablast с ограничением на таксон Amoeboaphelidium protococarum. Результаты можно видеть на Рис. 5

Рис.5
Можем видеть две достаточно хорошие находки (для их быстрого обнаружения и был использован megablast). Первая находка включает в себя один совпадающий участок, а вторая — два, причём первый участок из них выровнен ровно так же, как и в первой находке.

Рис. 6. Выравнивания находок из выдачи blast

По координатам участков и аннотации последовательностей в находках можно понять, что за гены содержатся в scaffold-693. Один из найденых участков участвует в кодировании 28S-рРНК, а второй — является частью спейсерного участка, функция которого предположительно заключается в обеспечении выского уровня транскрипции в связанных генах.

© Mishchenko Polina 2016