3 Семестр

Задание 1.

В первом задании надо было определить таксономию и функцию прочтенной в практикуме 6 последовательности. Последовательность в формате fasta была подана на вход в blastn. Поиск осуществлялся по базе данных Nucleotide collection со стандартными параметрами (порог ожидания - 10; длина слов - 16; балл за совпадение - 2, за не совпадение - -3; штраф за открытие гепа - -5; за расширение гепа - -2) алгоритма megablast (за исключением количества находок: 20000). На рис.1 представлена выдача blastn.

Рис. 1. Часть найденных последовательностей

Всего было 20000 находок, что соответствует максимальному числу, которое можно было выставить в параметрах. E-value лучшей находки - 0.0(первые пять находок имеют такой же), я взяла 7 результат, с E-value = 2e-179 и Querty cover составляющей 100%, а худшей — 4e-100 (но тут, впрочем, query cover составлет 85%, что достаточно не плохо). Все находки являются нуклеотидными последовательностями эукариот.

Большое число находок связано с консервативностью аминокислотной последовательности этого белка в различных группах эукариот.

Для двух лучших найденных последовательностей (Polycirrus medusa и Polycirrus carolinensis) было построено выравнивание с исходной (она первая в выравнивании) в jalview (проект [jvp] доступен по ссылке). Результат можно видеть на Рис.2.

Рис. 2

Рис. 3. Taxonomy

Рис. 4. Polycirrus medusa

Eсли учитывать тот факт, что среди первых 10 находок 2 относились к одному и тому же роду, а именно — Polycirrus medusa, то можно сказать, что последовательность пренадлежит к роду Polycirrus .

Polycirrus medusa показана на рисунке сбоку

Итоговая предполагаемая таксономия (до рода): Eukariota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Annelida; Polychaeta; Scolecida; Terebellida; Terebellidae; Polycirrus.

Задание 2

Было проведено сравнение трех алгоритмов — blastn (somewhat similar sequences), discontigious megablast (more dissimilar sequences), megablast (highly similar sequences).

Таблица 1. Параметры запуска blast

Алгоритм поиска	Database	Max target sequences	Expect treshold	Word size	Max matches in a query range	Match/Mismatch scores	Gap costs
blastn	Nucleotide collection (nr/nt)	100	10	11	0	2;-3	5;2
discontigious megablast	Nucleotide collection (nr/nt)	100	10	11	0	2;-3	5;2
megablast	Nucleotide collection (nr/nt)	100	10	28	0	1;-2	linear

Таблица 2. Описание параметров худших находок разных алгоритмов

Параметры	blastn	megablast	discontiguous megablast
Число находок	>100	>100	>100
Max score	439	531	531
E-value	5е-119	8е-147	8e-147
Identity	79%	79%	79%
Query cover	97%	98%	98%

При помощи blastn были найдены находки, которые не были найдены с помощью megablast и discontiguous megablast. Пример таких последовательностей можно увидеть на фотографии.

Выводы:

megablast находит самые достоверные и наиболее близкие гомологи
discontigious megablast хорошо работает в плане поиска гомологов, которые прежде уже дивергировали, и имеют как схожие, так и различающиеся участки
blastn выдает наиболее широкий спектр последовательностей, которые могут, вообще-то, и не быть гомологами исходной или являться очень далекими гомологами

Задание 3

Мною были выбраны белки HSP7C_HUMAN, TERT_HUMAN, CISY_HUMAN. Их последовательности я скачала и объединила в единый файл формата [fasta].

Я создала локальную базу данных на основе генома Amoeboaphelidium protococarum, записанного в файле X5.fasta, следующим образом:

	makeblastdb -in X5.fasta -dbtype nucl

tblasn — это программа, которая ищет по нуклеотидному банку последовательностей те, что кодируют белки, подающиеся на вход. Ей я и воспользовалась:

	tblastn -query inprot.fasta -db X5.fasta -out blast.out -outfmt 7

Выдача алгоритма для трёх выбранных белков приведена на рисунках ниже.

Белок	Выдача tblastn

HSP7C_HUMAN
Белок HSP7C^[1] — это белок теплового шока. Репрессор активации транскрипции. Шаперон. Является компонентом PRP19-CDC5L комплекса, который формирует внутренню часть сплайсосомы. Этот белок необходим для активации сплайсинга пре-мРНК. Может выполнять структурную функцию в сборке сплайсосомы, поскольку контактирует со всем остальными ее компонентами. Связывает бактериальные липополисахариды и опосредует ЛПС-идуцированную воспалительную реакцию. В результате работы tblastn мы получили 22 находки. Первая из них, scaffold-199, представляется достаточно качественной. E-value 0.0, процент покрытия 78.09%. Последний показатель может показаться не очень высоким, но посмотрев отдельно на выравнивание (для этого scaffold-199 нужно было извлечь из файла генома), можно понять, что несовпадения сконцентрированы в конце выравнивания, поэтому, как минимум, здесь можно говорить о гомологии доменов с сохранением функции.

TERT_HUMAN
Белок TERT_HUMAN^[2] — это обратная транскриптаза теломеразы. Теломераза — рибонуклеопротеиновый фермент, необходимый для репликации концов хромосомы у большинства эукариот. Активен в прогениторных и раковых клетках, в отличие от обычных соматических, где практически не действует. Является участником процесса элонгации теломер, при этом действуя как обратная транскриптаза: добавляет простые повторные последовательности к концам хромосомы, копируя образец с РНК-компонента фермента. (Катализирует РНК-зависимое удлинение 3'-конца хромосомы с помощью 6-нуклеотидной последовательности 5'-TTAGGG-3'). Каталитический цикл включает связывание праймера, удлинение праймера и высвобождение праймера по достижению конца РНК-затравки или же перенос возникающего продукта с его последующим удлинением. Играет важную роль в процессах старения и предотвращения апоптоза. На выдаче имеем 3 находки. Лучшая из них — scaffold-17 с E-value 8e-23 и Query cover 26.58%. Посмотрим на выравнивание. Раскраска BLOSUM62 By Conservation. Выравнивание, конечно, не самого высокого качества, но всё же встречаются участки (100-134, 381-402 и другие), на которых прослеживается сохранение мотивов. В этом случае, думаю, ответ на вопрос о наличии гомологов будет условно положительный. Вполне вероятно, что отдельные домены белка, закодированного в каком-то из генов scaffold-17, сохранили схожую с TERT_HUMAN функцию.

CISY_HUMAN^[3]
Белок CISY_HUMAN — это белок митохондриальной цитрат-синтазы. Итак, он принимает участие в метаболизме углеводов, а именно — в цикле трикарбоновых кислот на стадии получения изоцитрата из оксалоацетата. tblastn выдал 6 находок. Лучшая из них — scaffold-693 с E-value 2e-180 и Query cover 69.5%. Интересно отметить, что с ней по всем параметрам очень схожа третья по счёту находка scaffold-157, только у нее BitScore на единицу меньше, а E-value чуть выше и составляет 5e-180. Также внутри обоих скэффолдов было по две находки (соответственно, 2-ая и 4-ая). Находки из двух разных скэффолдов имели одинаковые по сути выравнивания с последовательностью CISY_HUMAN, а различались рамкой считывания при формальной трансляции нуклеотидной последовательности скэффолда в последовательность аминокислот. Выравнивания хорошего качества, поэтому, как мне кажется, здесь можно вполне утверждать наличие гомолога. Для отдельно взятого скэффолда (693-ий или 157-ой) первое выравнивание соответствует одной части белка, гомологичного CISY_HUMAN, а второе — другой. Причём эти части в последовательности CISY идут подряд, а в исследуемом геноме разнесены в разные области скэффолда.

Задание 4

Для выполнения задания я выбрала из генома Amoeboaphelidium protococarum скэффолд scaffold-693. Предварительно была получена информация о длинах контигов:

	infoseq X5.fasta -only -name -length

А затем извлечена последовательность подходящего по длине scaffold-693:

	seqret X5.fasta:scaffold-693 -out 693.fasta

По этой последовательности был запущен алгоритм megablast с ограничением на таксон Amoeboaphelidium protococarum. Результаты можно видеть на Рис. 5

Рис.5

Можем видеть две достаточно хорошие находки (для их быстрого обнаружения и был использован megablast). Первая находка включает в себя один совпадающий участок, а вторая — два, причём первый участок из них выровнен ровно так же, как и в первой находке.

Рис. 6. Выравнивания находок из выдачи blast

По координатам участков и аннотации последовательностей в находках можно понять, что за гены содержатся в scaffold-693. Один из найденых участков участвует в кодировании 28S-рРНК, а второй — является частью спейсерного участка, функция которого предположительно заключается в обеспечении выского уровня транскрипции в связанных генах.

Нуклеотидный blast.