Учебный сайт Ксении Худяковой

Главная
Семестры
Обо мне
Ссылки

Задание 1.
Нужно было определить принадлежность последовательности с помощью программы megablast на сайте NCBI. Поиск был произведен в базе данных refseq_genomic, только среди бактерий и архей. Заданная последовательность найдена в нескольких записях, большинство из которых полногеномные сиквенсы бактерии Pantoea ananatis. Последовательность принадлежит гену АТФазы, задействованной в инициации репликации ДНК. Это последовательность кодирующей цепи. 100% совпадение с несколькими записями, например, с NZ_CAEJ01000016.1. Её координаты в этой записи: [86856;87155].

Задание 2.
Далее нужно было получить последовательность такого белка человека, для которого идентификатор в Swiss-Prot и моя фамилия начинаются с максимального количества одинаковых букв. Команда для получения списка белков человека, начинающихся с буквы "kh":

infoseq sw:kh_human -only -name -desc -out hum_list.txt
Был получен файлhum_list.txt
Из этого списка я выбрала KHK_HUMAN, то есть кетогексокиназу. Команда для получения её последовательности:
seqret sw:khk_human -auto
Теперь нужно найти гомологов этого белка у африканского слона. Поиск велся на сайте ENA, spliced translated nucleotide search. У лучшей находки e-value 2E-149, длину и identity полученного выравнивания 298 и 86% соответственно. Координаты найденного гена в геноме слона: 40628814->40639746. Количество интронов 7.

Задание 3.
Для последовательности изолейциновой тРНК бактерии Mycobacterium leprae TN выполнен поиск гомологичных последовательностей внутри порядка Actinomycetales. Файл NC_002677.frn содержит аннотированные последовательности генома (доступ к файлу: ftp://ftp.ncbi.nih.gov/genomes/Bacteria/Mycobacterium_leprae_TN_uid57697/NC_002677.frn). Из этого файла вырезана последовательность изолейциновой тРНК. Поскольку ее длина очень маленькая (микобактерии вообще имеют минимальный геном), я могу привести её в тексте:
ref|NC_002677|:12194-12270|Ile tRNA| [gene=ileT] [locus_tag=MLt01] GGGCCTATAGCTCAGGCGGTTAGAGCACTTCGCTGATAACGAAGAGGTCGGAGGTTCGAGTCCTCCTAGGCCCACAA

Поиск гомологов этой тРНК внутри порядка Actinomycetales в банке данных refseq_genomic произведен тремя способами:
С использованием алгоритма megablast: найдено 158 последовательности, у всех находок e-value < 0,001 (самое большое значение e-value - 3e-11).
С использованием алгоритма blastn (параметры по умолчанию): всего найдено 458 последовательностей, 380 из них имеют e-value < 0,001.
С использованием алгоритма blastn (максимально чувствительные параметры из доступных: длина слова = 7, match/mismatch = 1/-1): всего найдено 844 последовательности, 413 из них имеют e-value < 0,001.


Видно, что самый строгий алгоритм - это megablast, потому что с его помощью найдено меньше всего гомологов, и все они хорошие. С максимально чувствительными параметрами blastn находится почти в два раза больше последовательностей, чем с тем же алгоритмом, но с параметрами по умолчанию. При этом хороших находок у обоих запусков сопоставимое количество (у параметров по умолчанию на 33 меньше).