Главная | Семестры | Третий семестр |
Для определения таксономии моей последовательности я запустил megablast c параметрами по умолчанию. Лучшие находки выдачи представлены на Рисунке 1. Далее я выбрал несколько находок
с лучшими параметрами E-value, покрытия, идентичности и построил их множественное выравнивание с моей последовательностью (Рисунок 3). Как мне кажется, внутри рода Gammarus замен относительно query меньше, при этом есть
участки, где у рода стоит один нуклеотид в конкретной позиции, а у других видов - нет. Таким же образом род Hyppolyte отличается от остальных. Род Hyppolyte имеет с родом Gammarus первый общий таксон - подкласс
Eumalacostraca. Тут стоит отметить, что ген оказался очень консервативен, раз в выдаче мы имеем выдачи с высокими параметрами для разных порядков. Также я посмотрел на Blast tree view для выдачи в 500 находок, и
там моя последовательность точно находится в кладе амфипод, соседствуя с гаммарусами (Рисунок 4). Можно было бы отнести мою последовательность и к семейству Gammaridae и к роду Gammarus, но в поисках по семейству других родов не
найдено, чтобы было с чем сравнить. Я считаю, принадлежность последовательности однозначно можно установить следующим образом: Eukaryota; Metazoa; Ecdysozoa; Arthropoda; Crustacea; Malacostraca; Amphipoda.
Для определения функции последовательности я провел blastx, лучшие находки на Рисунке 2. Видно, что находки с лучшим весом принадлежат совсем не амфиподам, но это можно объяснить тем, что у лучших находок больше покрытие и
, следовательно, больший вес, чем у тех же гаммарусов. Функция последовательности - гистон h3, один из коровых гистонов, формирующих нуклеосому. Это можно установить и из нуклеотидного бласта, и из белкового.
Еще раз отмечу, что белок оказался очень консервативен - выравнивание нуклеотидных последовательностей
с неродственными организмами дает очень высокую (до 100%) идентичность. Значит, большинство нуклеотидных замен не влияют на аминоксилотную последовательность и являются синонимичными.
Рисунок 1. Выдача megablast.
Рисунок 2. Выдача blstx.
Рисунок 3. Выравнивание выдачи megablast.
Рисунок 4. Дерево находок.
В этом задании нужно было сравнить выдачу нескольких вариантов запуска blast (megablast, blastn, sensetive blastn) для последовательности из предыдущего задания и для одного CDS вируса из предыдущего практикума.
Я выбрал эту. Запуски я проводил с параметрами по умолчанию, кроме: для всех поставил выдачу 1000, для чувствительного blast длину слова 7 и Match/Mismatch Scores "1,-1". Также я сузил
область поиска, оставив/исключив некоторые таксоны (Рисунок 5 и Рисунок 6).
Запуски алгоритмов для консенсуса демонстрируют следующие различия, например: megablast не находит последовательность на Рисунке 7, так как в ней нет слова длиной 28. Blastn с длиной слова 11 ее находит. Выдача
обычного нуклеотидного бласта и нуклеотидного отличается, напимер, порядком находок, так как уменьшение штрафа за мисматч увеличивает вес выравнивания (Рисунки 8 и 9).
Для вирусов результаты несколько интереснее. Для всех трех поисков в результаты попали в соновном полные геномы. Megablast дает 4 находки среди родственных вирусов со 100% захватом query и хорошей идентичностью -
возможно гомологи исходной cds. Оба запуска blastn дают большое количество находок, однако все c низким query covery. Видимо, это отдельные участки похожих последовательностей. Приведу пример последовательности,
найденной чувствительным бластом (выравнивание на Рисунке 10). Снова видно, что длина слова 11 у обычного blastn недостаточна, чтобы обнаружить такую находку.
В целом можно отметить, что изменение длины слова сказывается на количестве находок по базам данных, меньше длина - больше шансов найти такое слово и больше результатов. Изменение Match/Mismatch Scores,
из того что я мог заметить, меняет ранжировку результатов алгоритмом, разрешая больше мисматчей, чем в случае по умолчанию.
Рисунок 5. Поиск для консенсуса.
Рисунок 6. Поиск для CDS вируса.
Консенсус | Вирус | |
megablast | 26 | 4 |
blastn | 64 | 245 |
sens. blastn | 68 | 709 |
Таблица 1. Полученные находки.
Рисунок 7. Выравнивание, megablast не нашел.
Рисунок 8. Находки blastn по умолчанию.
Рисунок 9. Находки blastn чувствительного.
Рисунок 10. Находки blastn чувствительного.
В это задании нужно было найти гомологи белков с известной функции в неаннотированном геноме Amoeboaphelidium protococcarum. Я выбрал следующие три белка для поиска:
Гистон H3 мыши - белок, учавствующий в образовании нуклеосомы и отвечающий за компактизацию ДНК
Актин мыши - глобулярный белок, образующий скоратительные милофиламенты.
Аконитазу мыши - фермент из гласса лиаз, катализирующий превращение цитрата в изоцитрат в цикле Кребса.
Поиск белков я проводил так: искал в NCBI Protein по названию в All Fields (напр. Histone h3) и Organizm - Mus musculus.
Далее я запустил tblastn на kodomo, предварительно создав базу X5.fasta в своей директории. Я также использовал таблицу генетического кода, указанную в записях GenBank о Amoeboaphelidium protococcarum.
makeblastdb -in X5.fasta -dbtype nucl tblastn -query histone_H3.fasta -db_gencode 6 -db X5.fasta -out histone.res tblastn -query aconitase.fasta -db_gencode 6 -db X5.fasta -out aconitase.res tblastn -query actin.fasta -db_gencode 6 -db X5.fasta -out actin.res
Найдены совпадения: гистон актин аконитаза. Считаю результат для каждого белка положительным. Покрытие во всех случаях больше 95%. Не самая высокая идентичность для аконитазы, но в выравнивании много идентичных длинных участков. Согласно записи в GenBank, на участках 95 - 505 и 587 - 735 находятся домены. Примерно в этих участках выравнивания (приведено ниже) прослеживается большая гомологичность.
Белок | Достоверных находок | Большее E-value | Меньший вес | Меньшая идентичность |
Гистон | 3 | 5е-78 | 254 | 95 |
Актин | 3 | 0.00 | 735 | 92 |
Аконитаза | 2 | 0.00 | 1101 | 70 |
Таблица 2. Результаты tblastn.
Query 28 QRAKVAMSHFEPSEYIRYDLLEKNINIVRKRLNRPLTLSEKIVYGHLDDPANQEIERGKT 87 Q KV M++ E ++YI Y +E N+ IVR RL RPLTLSEKIVYGHLDD NQEI+RG++ Sbjct 75347 QLNKVMMNNLEKNQYINYKRIEDNLKIVRDRLQRPLTLSEKIVYGHLDDAKNQEIKRGQS 75526 Query 88 YLRLRPDRVAMQDATAQMAMLQFISSGLPKVAVPSTIHCDHLIEAQVGGEKDLRRAKDIN 147 YLRLRPDRVA QDATAQMA+LQF+S+G+P VAVPST+HCDHLIEAQVGGEKDL RAKDIN Sbjct 75527 YLRLRPDRVACQDATAQMALLQFMSAGMPTVAVPSTVHCDHLIEAQVGGEKDLARAKDIN 75706 Query 148 QEVYNFLATAGAKYGVGFWRPGSGIIHQIILENYAYPGVLLIGTDSHTPNggglggicig 207 +EVY+FL++A AKYG+GFW+PG GIIHQIILENYA+PG L+IGTDSHTPN GGLG + +G Sbjct 75707 KEVYDFLSSACAKYGLGFWKPGGGIIHQIILENYAFPGGLMIGTDSHTPNAGGLGMVAVG 75886 Query 208 vggADAVDVMAGIPWELKCPKVIGVKLTGSLSGWTSPKDVILKVAGILTVKGGTGAIVEY 267 VGGADAVDVMA IPWELKCP VIGVKLTG +SGWTS KDVILKVAGILTVKGGTGAIVEY Sbjct 75887 VGGADAVDVMADIPWELKCPNVIGVKLTGKMSGWTSAKDVILKVAGILTVKGGTGAIVEY 76066 Query 268 HGPGVDSISCTGMATICNMGAEIGATTSVFPYNHRMKKYLSKTGRTDIANLAEEFKDHLV 327 GPGVDS+SCTGMATICNMGAEIGATTS+FP+N RM YL+ T R IA + +F +L Sbjct 76067 FGPGVDSLSCTGMATICNMGAEIGATTSLFPFNSRMADYLNATKRPYIAEASRKFAHNLR 76246 Query 328 PDPGCQYDQVIEINLNELKPHINGPFTPDLAHPVADVGTVAEKEGWPLDIRVGLIGSCTN 387 D G +YDQVIEI+L++L+P+INGPFTPDLA P++ VA+K WP +++V LIGSCTN Sbjct 76247 ADEGAKYDQVIEIDLSKLEPYINGPFTPDLATPLSQFAEVAQKNNWPTELKVALIGSCTN 76426 Query 388 SSYEDMGRSAAVAKQALAHGLKCKSQFTITPGSEQIRATIERDGYAQILRDVGGIVLANA 447 SSYEDM RSA +AKQAL GLK KSQFTITPGSEQIRATIERDG ++L D GG+VLANA Sbjct 76427 SSYEDMDRSANLAKQALDAGLKVKSQFTITPGSEQIRATIERDGQMEVLTDAGGVVLANA 76606 Query 448 CGPCIGQWDRKDIKKGEKNTIVTSYNRNFTGRNDANPETHAFVTSPEIVTALAIAGTLKF 507 CGPCIGQWDRKD+KKGEKN+I+TSYNRNFTGRNDANP THAFV SPE+VTA+A G L+F Sbjct 76607 CGPCIGQWDRKDVKKGEKNSIITSYNRNFTGRNDANPATHAFVASPELVTAMAFGGDLRF 76786 Query 508 NPETDFLTGKDGKKFKLEAPDADELPRSDFDPGQDTYQHPPKDSSGQRVDVSPTSQRLQL 567 NP D L KDGK FK P ELP +DPGQ+TYQ PP+ + +V V P S RLQ Sbjct 76787 NPAKDQLKTKDGKPFKFREPSGHELPARGYDPGQNTYQPPPEQRANVQVVVDPKSNRLQK 76966 Query 568 LEPFDKWDGKDLEDLQILIKVKGKCTTDHISAAGPWLKFRGHLDNISNNLLIGAINIENG 627 L PF K++ KD DL ILIKVKGKCTTDHISAAGPWLK+RGHLDNISNN+LIGAINIEN Sbjct 76967 LTPFPKFNRKDPTDLPILIKVKGKCTTDHISAAGPWLKYRGHLDNISNNMLIGAINIENN 77146 Query 628 KANSVRNAVTQEFGPVPDTARYYKKHGIRWVVIGDENYGEGSSREHAALEPRHLGGRAII 687 KAN V+N + ++ VP AR YKK+G+ WVVIGD+NYGEGSSREHAALE RHLGG AII Sbjct 77147 KANEVKNVLNGKYDAVPAVARDYKKNGVGWVVIGDQNYGEGSSREHAALEVRHLGGVAII 77326 Query 688 TKSFARIHETNLKKQGLLPLTFADPSDYNKIHPVDKLTIQGLKDFAPGKPLKCVIKHPNG 747 KSFARIHETNLKKQG+LPLTFA+ +DY+KI P D++T++G+ APGKP+ +K +G Sbjct 77327 VKSFARIHETNLKKQGMLPLTFANAADYDKIDPTDRVTLKGVSTLAPGKPVTMQVKKASG 77506 Query 748 TQETILLNHTFNETQIEWFRAGSALNRM 775 I LNHTFNE Q+EWF+AGSALN M Sbjct 77507 KTVDIPLNHTFNENQLEWFKAGSALNAM 77590
Для выполнения этого задания я выбрал скэффолд длиной 25140 нуклеотидов из сборки (Беркут) из предыдущего практикума. Я провел blastx со следующими параметрами (Рисунок 11). Лучшие результаты на Рисунке 12. Со 100% идентичностью и полным покрытием выравнивается ген olfactory receptor 10A7-like того же вида, что и в сборке. Также хорошо (80% идентичность, более 95% покрытие) выравнивается ген olfactory receptor 10A2 Калипты Анны - птицы из семейства колибри. Оба эти гена - обонятельные рецепторы. Это разные белки, но, видимо, трансмембранные участки у них похожи. Ниже приведено выравнивание с геном Беркута. По выравниванию с геном Беркута определим примерные координаты гена в этом скэффолде: 18996 - 19988.
Query 18996 MGPVEEMKPGNQKVTTHFLLLGFAFHGKmqllffmlisimflailiGNSLIVMITTIDPV 19175 MGPVEEMKPGNQKVTTHFLLLGFAFHGKMQLLFFMLISIMFLAILIGNSLIVMITTIDPV Sbjct 1 MGPVEEMKPGNQKVTTHFLLLGFAFHGKMQLLFFMLISIMFLAILIGNSLIVMITTIDPV 60 Query 19176 LHTPMYYFLKNLALTEICYSLSLVHKMLAIFLVERKNNSFTACALQLNCIILFVTCEHFL 19355 LHTPMYYFLKNLALTEICYSLSLVHKMLAIFLVERKNNSFTACALQLNCIILFVTCEHFL Sbjct 61 LHTPMYYFLKNLALTEICYSLSLVHKMLAIFLVERKNNSFTACALQLNCIILFVTCEHFL 120 Query 19356 LGAMAYDQQAAICHPLHYATMMNRDRCFKMAIGSWLSGVPVALGFTTWLFTLPFCGRNTV 19535 LGAMAYDQQAAICHPLHYATMMNRDRCFKMAIGSWLSGVPVALGFTTWLFTLPFCGRNTV Sbjct 121 LGAMAYDQQAAICHPLHYATMMNRDRCFKMAIGSWLSGVPVALGFTTWLFTLPFCGRNTV 180 Query 19536 NHFFCDVSPVLKLVCADTALFELLIFIAIVIVMIPFSLTGISYLCITHAVLQISSAVGQR 19715 NHFFCDVSPVLKLVCADTALFELLIFIAIVIVMIPFSLTGISYLCITHAVLQISSAVGQR Sbjct 181 NHFFCDVSPVLKLVCADTALFELLIFIAIVIVMIPFSLTGISYLCITHAVLQISSAVGQR 240 Query 19716 RAFSTCAAHLVVVTLFYSTTGIIHLQPKSSISSNMKKMVSLSYTVVTPMLDPIIYSLRNQ 19895 RAFSTCAAHLVVVTLFYSTTGIIHLQPKSSISSNMKKMVSLSYTVVTPMLDPIIYSLRNQ Sbjct 241 RAFSTCAAHLVVVTLFYSTTGIIHLQPKSSISSNMKKMVSLSYTVVTPMLDPIIYSLRNQ 300 Query 19896 EVKQSLRRCIDRCLLRKQMAFFSSIQVMDSL 19988 EVKQSLRRCIDRCLLRKQMAFFSSIQVMDSL Sbjct 301 EVKQSLRRCIDRCLLRKQMAFFSSIQVMDSL 331
Рисунок 11. Параметры blastx.
Рисунок 12. Выдача blastx.