УЧЕБНЫЙ САЙТ АМОСОВОЙ АЛЁНЫ

Поиск организма по фрагмену нуклеотидной последовательности

По заданному 300-нуклеотидному фрагменту, используя программу megablast, было определено, из чьего генома был взят данный фрагмент.

 
>Амосова Алена 
gtatgcgaagcctgcgtaccatgtataacatatggaacgtagacaaaaactccgtggtca
acgtatgctgcctactacaacaggcgcagagagaagctgttgcaattgcaagtcatatca 
gcgaatacgacgcaaacacttttcgaaaaacgcctcattataacttgctcaagtaccagg 
ttgctgacagtcaaggcaagaacaaggaatacctcgtgcatagtaaaataaaagcgatgg
ctggtgaaatagaaaaagttctgccaagtatatcaagcataatagcgaagaagagcgggc

Оказалось, это часть генома бактерии Anaplasma marginale str. Florida.В RefSeq ему соответствует АС NC_012026. Часть гена с этим кусочком (координаты 1145-1144) кодирует hypothetical protein (координаты 1-1905).

Поиск гомолога человека в слоне

Был выбран такой белок человека, для которого идентификатор в Swiss-Prot и моя фамилия начинаются с максимального количества одинаковых букв. Это было сделано с помощью команды am*_human -only -name -desc -out liv.txt. Далее в файле обнаружен белок с идентефикатором AMOT_HUMAN (3 одинаковых буквы с моей фамилией).Далее была полученна его последовательность:

 
>gi|74753814|sp|Q4VCS5.1|AMOT_HUMAN RecName: Full=Angiomotin
MRNSEEQPSGGTTVLQRLLQEQLRYGNPSENRSLLAIHQQATGNGPPFPSGSGNPGPQSDVLSPQDHHQQ
LVAHAARQEPQGQEIQSENLIMEKQLSPRMQNNEELPTYEEAKVQSQYFRGQQHASVGAAFYVTGVTNQK
MRTEGRPSVQRLNPGKMHQDEGLRDLKQGHVRSLSERLMQMSLATSGVKAHPPVTSAPLSPPQPNDLYKN
PTSSSEFYKAQGPLPNQHSLKGMEHRGPPPEYPFKGMPPQSVVCKPQEPGHFYSEHRLNQPGRTEGQLMR
YQHPPEYGAARPAQDISLPLSARNSQPHSPTSSLTSGGSLPLLQSPPSTRLSPARHPLVPNQGDHSAHLP
RPQQHFLPNQAHQGDHYRLSQPGLSQQQQQQQQQHHHHHHHQQQQQQQPQQQPGEAYSAMPRAQPSSASY
QPVPADPFAIVSRAQQMVEILSDENRNLRQELEGCYEKVARLQKVETEIQRVSEAYENLVKSSSKREALE
KAMRNKLEGEIRRMHDFNRDLRERLETANKQLAEKEYEGSEDTRKTISQLFAKNKESQREKEKLEAELAT
ARSTNEDQRRHIEIRDQALSNAQAKVVKLEEELKKKQVYVDKVEKMQQALVQLQAACEKREQLEHRLRTR
LERELESLRIQQRQGNCQPTNVSEYNAAALMELLREKEERILALEADMTKWEQKYLEENVMRHFALDAAA
TVAAQRDTTVISHSPNTSYDTALEARIQKEEEEILMANKRCLDMEGRIKTLHAQIIEKDAMIKVLQQRSR
KEPSKTEQLSCMRPAKSLMSISNAGSGLLSHSSTLTGSPIMEEKRDDKSWKGSLGILLGGDYRAEYVPST
PSPVPPSTPLLSAHSKTGSRDCSTQTERGTESNKTAAVAPISVPAPVAAAATAAAITATAATITTTMVAA
APVAVAAAAAPAAAAAPSPATAAATAAAVSPAAAGQIPAAASVASAAAVAPSAAAAAAVQVAPAAPAPVP
APALVPVPAPAAAQASAPAQTQAPTSAPAVAPTPAPTPTPAVAQAEVPASPATGPGPHRLSIPSLTCNPD
KTDGPVFHSNTLERKTPIQILGQEPDAEMVEYLI

Поиск гомолога этого белка в геноме африканского слона на сайте ENA дал 8 результатов. Е-value лучшей находки = 0, длина (Alignment Length) = 1084 и identity = 93%, координаты найденного гена в геноме слона - 18463351->18522591, а также в нем имеется 12 интронов.

Поиск некодирующих последовательностей программой BLAST

В этом задании требовалось поработать с хорошо знакомым мне уже организмом - Gloeobacter violaceus PCC 7421. С помощью FTP-сервера NCBI был получен файл с расширением frn, в котором были уже вырезанные тРНК бактерии, последовательность одной из которых была помещена в отдельный файл (СКАЧАТЬ). Был проведен поиск гомологов данной последовательности по всем бактериям, относящимся к тому же порядку , что и моя (Цианобактерия).
Поиск был проведен тремя разными вариантами:
a. алгоритмом megablast - дал 2 результата;
b. алгоритмом blastn с параметрами по умолчанию - дал 94 результата;
c. алгоритмом blastn с длиной слова = 7, match/mismatch = 1/-1 - дал 100 результатов.
У всех находок e-value < 0,001.

© Амосова Алена. 2013 год