Задание 1. Определить таксономию и функцию прочтенной нуклеотидной последовательности
С помощью BLASTN было установлено к какому гену принадлежит эта последовательность, а так же определена таксономия организма.
Из находок в BLAST>Nucleotide я выбрала 3 лучшие: Query cover выше 90%, E-value равно 0 и процент идентичных позиций превышает 90%.
![](style/images/pr6_1.jpg)
Последовательности во всех трёх находках представляют собой один и тот же ген, кодирующий субъединицу 1 митохондриального фермента цитохромоксидазу (COI).
Первые две находки - из организма Polycirrus medusa, третья находка - из организма Polycirrus sp. BOLD:AAI2761 .
Оба организма принадлежат к одному роду многощетинковых кольчатых червей - Polycirrus.
[ссылка на источник]
![](style/images/pr6_3.jpg)
Полученные три файла найденных в BLAST последовательностей в формате fasta были загружены для множественного выравнивания в программу Jalview.
°
Polycirrus medusa voucher WS0178 [fasta-файл]
°
Polycirrus medusa voucher WS0223 [fasta-файл]
°
Polycirrus sp. BOLD%3AAAI2761 [fasta-файл]
По предоставленным ниже данным мы видим, что наша изучаемая последовательность почти не отличается от Polycirrus medusa voucher WS0178 и
Polycirrus medusa voucher WS0223. Поэтому мы можем сказать, что изучаемая последовательность так же является геном,
который кодирует первую субъединицу цитохромоксидазы полихет из рода Polycirrus.
Задание 2. Сравните списки находок нуклеотидной последовательности 3-я разными алгоритмами blast
° Highly similar sequences (megablast)
Область поиска была ограничена семейством, к которому принадлежала лучшая находка - Terebellidae (taxid:32261)(так как до этого число находок было неприемлемо),
Max target sequences был установлен на 1000.
° More dissimilar sequences (discontiguous megablast)
Было получено 117 находок.
° Somewhat similar sequences (blastn)
С учетом прежних настроек было получено 115 находок.
![](style/images/pr6_4.jpg)
По сравнению с blastn discontiguous megablast нашёл ещё две находки. Было замечено, что у этих находок query cover горздо меньше по сравнению
с остальными.
Это удивительно, так как blastn ищет хоть что-нибудь сходное, и должен найти больше всех находок в сравнении с другими алгоритмами.
Задание 3.
В этом задании было необходимо проверить наличие гомологов определенных белков в геноме организма X5 (Amoboaphelidium protococarum) c помощью локального BLAST.
Для начала я создала локальную базу данных (makeblastdb -in X5.fasta -dbtype nucl), а затем для каждого из выбранных белков запустила по ней алгоритм tblastn,
находящий гомологи белка в формальной трансляции нуклеотидного банка (tblastn -query xxx.fasta -db X5.fasta > xxx.out).
Для изучения я выбрала 3 белка:
° HSP7C_HUMAN - консервативный шаперон HSP70, белок теплового шока; имеется у большинства организмов из всех царств.
° TERT_HUMAN - теломераза,восстанавливающая длину хромосомы при репликации; имеется у большинства (но не всех) эукариот.
° CISY_HUMAN - митохондриальная цитратсинтаза.
Для упрощения работы в изучаемый fasta-файл были помещены все три последовательности(сами данные были скачены на сайте NCBI>Protein),
следовательно, на выходе был получен единственный файл -
[ссылка на скачивание]
Результаты:
° HSP7C_HUMAN
![](style/images/pr6_3zad_HSP7C_HUMAN.jpg)
Лучшая находка имеет следующие параметры:
> scaffold-199
Length=1112851
Score = 917 bits (2369), Expect = 0.0, Identities = 474/607 (78%), Positives = 538/607 (89%), Gaps = 0/607 (0%), Frame = -2
Всего находок - 16.
У находки хороший E-value, достаточно высокие проценты Positives и Identities.
Параметры сходства достаточны, чтобы назвать ее гомологом исследуемого белка, вероятно выполняющим ту же функцию.
° TERT_HUMAN
![](style/images/pr6_3zad_TERT_HUMAN.jpg)
Лучшая находка имеет следующие параметры:
> scaffold-17
Length=2125590
Score = 105 bits (263), Expect = 8e-23, Identities = 151/568 (27%), Positives = 248/568 (44%), Gaps = 43/568 (8%), Frame = +1
Этот результат является условно положительным. BLAST выдал три находки, однако даже у самой лучшей из них параметры сходства слишком низкие,
чтобы утверждать сохранение функций. Гомология отдельных доменов также маловероятна, так как совпадения распределены по всей длине
последовательности относительно равномерно.
° CISY_HUMAN
![](style/images/pr6_3zad_CISY_HUMAN.jpg)
Лучшая находка имеет следующие параметры:
> scaffold-693
Length=1268102
Score = 565 bits (1457), Expect = 2e-180, Identities = 262/377 (69%), Positives = 315/377 (84%), Gaps = 3/377 (1%) Frame = +1
Всего находок - 4.
Наблюдаются относительно хорошие параметры сходства. Скорее всего, данный белок является гомологом изучаемого нами белка.
Задание 4. Найдите один ген белка, закодированный в одном скэффолде ''Amoeboaphelidium protococcarum'
Для поиска был выбран контиг scaffold-499. Его длина составляет 32750 п.н., то есть его размер подразумевает возможное наличие на нем гена.
Информация о длинах контигов была получен командой infoseq пакета EMBOSS: infoseq X5.fasta -only -name -length.
Командой seqret X5.fasta: scaffold-499 -out scaffold-499.fasta была извлечена последовательность выбранного контига в отдельный файл
(
[ссылка на файл]).
Далее был запущен blastx с параметрами по умолчанию и ограничению по таксону Amoeboaphelidium (taxid:1243176).
Результат:
Таким образом, можно предположить, что в данном контиге ген кодирует белок, связанный с биосинтезом пуринов (bifunctional purine biosynthesis protein ADE17).
Наиболее изучен этот белок у Saccharomyces cerevisiae - гены ADE16 и ADE17 кодируют 5-аминоимидазол-4-карбоксамид-рибонуклеотид изоферменты трансформилазы,
катализирующие предпоследний шаг биосинтеза пуриновых нуклеотидов.