© Kholina Tatiana, 2013 You can contact me at tatiana96-khol@yandex.ru

Поиск организма по заданной последовательности с помощью megablast

В первом задании нужно было определить организм, из генома которого был взят заданный фрагмент последовательности. Мой фрагмент:

cagtaggcataactaaacataacgaattgagaaaacagcaatgaaaaaacaatttatcca 
aaaacaacaacaaatcagcttcgtaaaatcattcttttcccgccaattagagcaacaact 
tggcttgatcgaagtccaggctcctattttgagccgtgtgggtgatggaacccaagataa 
cctttctggttctgagaaagcggtacaggtaaaagttaagtcattgccggattcaacttt 
tgaagttgtacattcattagcgaagtggaaacgtaaaaccttagggcgttttgattttgg 

Поиск производился программой nucleotide blast на сайте NCBI. В параметрах был указан алгоритм megablast (по умолчанию) и база данных - refseq_genomic. Поиск производился в археях и бактериях.

Фрагмент взят из генома бактерии Yersinia pestis (чумная палочка). Результатов было очень много - видимо, геном этой бактерии часто секвенировался. AC - например, NC_017154.

Поиск гомолога человеческого белка в слоне

С помощью infoseq я нашла список белков человека из swiss-prot, которые включают больше всего букв моей фамилии - оказалось, что они включают максимум две, "kh". Я выбрала белок кетогексокиназу с идентификатором khk_human за классное название. Этот белок работает в пути метаболизма фруктозы - он катализирует ее фосфорилирование. Реакция: ATP + D-fructose = ADP + D-fructose 1-phosphate. В случае, когда этот белок не работает, развивается "фруктозурия", характеризующаяся повышенным содержанием фруктозы в крови и моче - в общем, непереносимость фруктозы.

С помощью поиска EMBL с параметром "spliced translated nucleotide search" я нашла единственный гомолог кетогексокиназы у африканского слона (Loxodonta africana). Найденный белок был гомологичен на всей длине исходной последовательности (Alignment lenght, 298), E-value - 2E-149, идентичность 86%. Найденный ген белка находится на позициях 40628814->40639746 в суперконтиге 20 (суперконтиг, или скаффолд - большой кусок генома, собранный из контигов). Ген содержит 7 интронов.

Поиск некодирующих последовательностей программой BLAST

Файл с последовательностями генов, кодирующих тРНК и рибосомальные РНК бактерии Chlamydia trachomatis Sweden2 был получен через FTP сервис NCBI. Файл с расширением .frn находится в папке этой бактерии. Я выбрала ген тирозиновой тРНК.

>ref|NC_017441|:159292-159374|Tyr tRNA| [gene=tRNATyr] [locus_tag=SW2_1423]
GGGGGTGTCGCATAGCGGTCAATTGCATCGGACTGTAAATCCGACTCCTTACGGATACGTTGGTTCAAAT
CCAGCCACCCCCA

Для этого гена был произведен поиск гомологов среди порядка Chlamydiales, к которому принадлежит хламидия. Поиск производился тремя способами: алгоритмом мегабласт, алгоритмом blastn со стандартными параметрами и blastn с длиной слова 7 и баллами за совпадение/несовпадение 1/-1.

Алгоритм Кол-во находок с E-value < 0.001
megablast 127
blastn, станд. параметры 132
blastn, word size = 7, match/mismatch = 1/-1 132

Для megablast самый большой e-value был 6e-34, для первого blastn - 2e-07, для второго - 5e-08. Хотя количество найденных blastn с нормальными параметрами и с измененными одно и то же, и последовательности нашлись одинаковые, алгоритмы приписали им разные e-value.