|
Задание 1.
Нужно было определить принадлежность последовательности с помощью программы megablast на сайте NCBI. Поиск был произведен в базе
данных refseq_genomic, только среди бактерий и архей. Заданная последовательность найдена в нескольких записях, большинство из
которых полногеномные сиквенсы бактерии Pantoea ananatis. Последовательность принадлежит гену АТФазы, задействованной в инициации
репликации ДНК. Это последовательность кодирующей цепи. 100% совпадение с несколькими записями, например, с NZ_CAEJ01000016.1.
Её координаты в этой записи: [86856;87155].
Задание 2.
Далее нужно было получить последовательность такого белка человека, для которого идентификатор в Swiss-Prot и моя фамилия
начинаются с максимального количества одинаковых букв.
Команда для получения списка белков человека, начинающихся с буквы "kh":
infoseq sw:kh_human -only -name -desc -out hum_list.txt
Был получен файлhum_list.txt
Из этого списка я выбрала
KHK_HUMAN, то есть кетогексокиназу. Команда для получения её последовательности:
seqret sw:khk_human -auto
Теперь нужно найти гомологов этого белка у африканского слона. Поиск велся на сайте ENA, spliced translated nucleotide search.
У лучшей находки e-value 2E-149, длину и identity полученного выравнивания 298 и 86% соответственно. Координаты найденного гена
в геноме слона: 40628814->40639746. Количество интронов 7.
Задание 3.
Для последовательности изолейциновой тРНК бактерии Mycobacterium leprae TN выполнен поиск гомологичных последовательностей
внутри порядка Actinomycetales.
Файл NC_002677.frn содержит аннотированные последовательности генома
(доступ к файлу: ftp://ftp.ncbi.nih.gov/genomes/Bacteria/Mycobacterium_leprae_TN_uid57697/NC_002677.frn). Из этого файла
вырезана последовательность изолейциновой тРНК. Поскольку ее длина очень маленькая (микобактерии вообще имеют минимальный геном),
я могу привести её в тексте:
ref|NC_002677|:12194-12270|Ile tRNA| [gene=ileT] [locus_tag=MLt01] GGGCCTATAGCTCAGGCGGTTAGAGCACTTCGCTGATAACGAAGAGGTCGGAGGTTCGAGTCCTCCTAGGCCCACAA
Поиск гомологов этой тРНК внутри порядка Actinomycetales в банке данных refseq_genomic произведен тремя способами:
С использованием алгоритма megablast: найдено 158 последовательности, у всех находок e-value < 0,001 (самое большое
значение e-value - 3e-11).
С использованием алгоритма blastn (параметры по умолчанию): всего найдено 458 последовательностей, 380 из них имеют e-value < 0,001.
С использованием алгоритма blastn (максимально чувствительные параметры из доступных: длина слова = 7, match/mismatch = 1/-1):
всего найдено 844 последовательности, 413 из них имеют e-value < 0,001.
Видно, что самый строгий алгоритм - это megablast, потому что с его помощью найдено меньше всего гомологов, и все они хорошие.
С максимально чувствительными параметрами blastn находится почти в два раза больше последовательностей, чем с тем же алгоритмом,
но с параметрами по умолчанию. При этом хороших находок у обоих запусков сопоставимое количество (у параметров по умолчанию на 33 меньше).
|
|