Поиск организма по заданной последовательности с помощью megablast
В первом задании нужно было определить организм, из генома которого был взят заданный фрагмент последовательности. Мой фрагмент:
cagtaggcataactaaacataacgaattgagaaaacagcaatgaaaaaacaatttatcca aaaacaacaacaaatcagcttcgtaaaatcattcttttcccgccaattagagcaacaact tggcttgatcgaagtccaggctcctattttgagccgtgtgggtgatggaacccaagataa cctttctggttctgagaaagcggtacaggtaaaagttaagtcattgccggattcaacttt tgaagttgtacattcattagcgaagtggaaacgtaaaaccttagggcgttttgattttgg
Поиск производился программой nucleotide blast на сайте NCBI. В параметрах был указан алгоритм megablast (по умолчанию) и база данных - refseq_genomic. Поиск производился в археях и бактериях.
Фрагмент взят из генома бактерии Yersinia pestis (чумная палочка). Результатов было очень много - видимо, геном этой бактерии часто секвенировался. AC - например, NC_017154.
Поиск гомолога человеческого белка в слоне
С помощью infoseq я нашла список белков человека из swiss-prot, которые включают больше всего букв моей фамилии - оказалось, что они включают максимум две, "kh". Я выбрала белок кетогексокиназу с идентификатором khk_human за классное название. Этот белок работает в пути метаболизма фруктозы - он катализирует ее фосфорилирование. Реакция: ATP + D-fructose = ADP + D-fructose 1-phosphate. В случае, когда этот белок не работает, развивается "фруктозурия", характеризующаяся повышенным содержанием фруктозы в крови и моче - в общем, непереносимость фруктозы.
С помощью поиска EMBL с параметром "spliced translated nucleotide search" я нашла единственный гомолог кетогексокиназы у африканского слона (Loxodonta africana). Найденный белок был гомологичен на всей длине исходной последовательности (Alignment lenght, 298), E-value - 2E-149, идентичность 86%. Найденный ген белка находится на позициях 40628814->40639746 в суперконтиге 20 (суперконтиг, или скаффолд - большой кусок генома, собранный из контигов). Ген содержит 7 интронов.
- Выравнивание: [x]
Поиск некодирующих последовательностей программой BLAST
Файл с последовательностями генов, кодирующих тРНК и рибосомальные РНК бактерии Chlamydia trachomatis Sweden2 был получен через FTP сервис NCBI. Файл с расширением .frn находится в папке этой бактерии. Я выбрала ген тирозиновой тРНК.
>ref|NC_017441|:159292-159374|Tyr tRNA| [gene=tRNATyr] [locus_tag=SW2_1423] GGGGGTGTCGCATAGCGGTCAATTGCATCGGACTGTAAATCCGACTCCTTACGGATACGTTGGTTCAAAT CCAGCCACCCCCA
Для этого гена был произведен поиск гомологов среди порядка Chlamydiales, к которому принадлежит хламидия. Поиск производился тремя способами: алгоритмом мегабласт, алгоритмом blastn со стандартными параметрами и blastn с длиной слова 7 и баллами за совпадение/несовпадение 1/-1.
Алгоритм | Кол-во находок с E-value < 0.001 |
megablast | 127 |
blastn, станд. параметры | 132 |
blastn, word size = 7, match/mismatch = 1/-1 | 132 |
Для megablast самый большой e-value был 6e-34, для первого blastn - 2e-07, для второго - 5e-08. Хотя количество найденных blastn с нормальными параметрами и с измененными одно и то же, и последовательности нашлись одинаковые, алгоритмы приписали им разные e-value.