Главная | Проекты | Семестры |
- Поиск в геноме участков, кодирующих белки, похожие на заданный С помощью seqret из БД SwissProt была извлечена аминокислотная последовательность моего белка из Escherichia coli K-12. Нужно определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.
Программой formatdb были созданы индексные файлы пакета BLAST для поиска по заданному геному Pasteurella multocida.
С помощью TBLASTN был проведен поиск белка по заданному геному с порогом на E-value 0,001 (Результат).
Поиск гомологов белка gluq_ecoli в геноме Pasteurella multocida
Число находок с Е-value<0,001 2 Характеристика лучшей находки: E-value находки 2e-38 Название геномной последовательности Pasteurella multocida subsp. multocida str. Pm70 section 119 of 204 of the complete genome. Координаты выравнивания(-ий) в найденной последовательности 10074-9193 - Нахождение записи EMBL по последовательности с помощью программы BLASTN С помощью seqret была получена последовательность того участка генома, который был найден в предыдущем упражнении как лучший. Поиск на сайте EBI (http://www.ebi.ac.uk/Tools/) позволил определить AC (AE004439; AE004439) записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога вашего белка, были также определены координаты этого гена согласно аннотации EMBL (1312885-1313766).
Участок является частью аннотированной кодирующей последовательности (CDS) с координатами 1312375-1313817.
информация о соответствующем участке в поле FT:
FT CDS complement(1312375..1313817) FT /codon_start=1 FT /transl_table=11 FT /gene="gltX_2" FT /locus_tag="PM1115" FT /product="GltX" FT /db_xref="GOA:P57906" FT /db_xref="HSSP:1NYL" FT /db_xref="InterPro:IPR014729" FT /db_xref="UniProtKB/Swiss-Prot:P57906" FT /protein_id="AAK03199.1" FT /translation="MKAEALFDLDPGVKVRTRFAPSPTGYLHVGGARTALYSWLYAKHH FT QGEFVLRIEDTDLERSTPEATAAILEGMAWLNLAWEHGPYFQTKRFDRYNQVIDQMIEQ FT GLAYRCYCSKERLEDLRNTQEQNKQKPRYDRHCLGDHKHSPEQPHVVRFKNPTEGSVVF FT EDAVRGRIEISNAELDDLIIRRTDGSPTYNFCVVVDDWDMGITHVVRGEDHINNTPRQI FT NILKALGAPIPTYAHVSMILGDDGQKLSKRHGAVSVMQYRDDGYLPEALLNYLVRLGWG FT HGDQEIFSVEEMIKLFELESVSKSASAFNTEKLLWLNHHYIRELPAEYVAKHLAWHYQD FT QGIDTSNGPALEDIVKMLAERCKTLKEMAAASRYFFEDFDSFDEAAVKKHFKVAAIEPL FT EKVKEKLTALDSWDLHSTHQAIEQTAAELELGMGKVGMPLRVAVTGSGQSPSMDVTLVG FT IGKARTLVRIQKAIDFIKSQNV"Указаны координаты CDS, содержащего наш участок (расположен на комплементарной цепи), название гена, идентификаторы продукта в различных БД (в UniProt: P57906), АК последовательность белка.
- Поиск гомологов с помощью программы BLASTN Из записи EMBL U0009 посредством seqret была получена последовательность, кодирующая мой белок.
Был проведен поиск гомологов этого гена в том же геноме, что в упражнении 1, но программой BLASTN. (Результат)
В отличие от поиска с помощью TBLASTN, были найдены участки, идентичные к различным коротким (14-15 нуклеотидов) генам. За счет маленькой длины E-value получились гораздо больше, чем в первом поиске.
Число находок с Е-value<0,001 0 Число находок с Е-value<10 17 Характеристика лучшей находки: E-value находки 1.6 Название геномной последовательности Pasteurella multocida subsp. multocida str. Pm70 section 170 of 204 of the complete genome Координаты выравнивания(-ий) в найденной последовательности 1050-1064
- Работа с программой getorf пакета EMBOSS
Командой seqret embl:D89965 был создан файл с записью D89965 банка EMBL.Команда getorf d89965.entret -table 11 -minsize 30 -find 1 -outseq d89965_orf.fasta запустила программу getorf так, что был получен набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода (Результат).
CDS из документа EMBL:
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYFTGIAQRGLTI
TSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA
Рамка, содержащая большую часть CDS из документа:
>D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds. MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE
Последовательность из записи Swiss-Prot, на которую ссылается данная запись EMBL:
>sp|P0A7B8|HSLV_ECOLI ATP-dependent protease hslV OS=Escherichia coli (strain K12) GN=hslV PE=1 SV=2
MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
IAIGSGGPYAQAAARALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA
Рамка, соответствующая большей части этой записи:
>D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
IAIGS
- Поиск некодирующих последовательностей программой BLASTN
- По заданному геному Pasteurella multocida программой blastn был проведен поиск последовательностей тРНК E. coli (файл trna_ecoli.fasta) c табличным форматом выдачи (опция
"-m 8" или"-m 9" программы blastall) без указания порога на E-value (Результат).- Команда grep "metT" -trna_pm_n.blast -c на выходе дает число — количество находок именно для данной (metT в примере) последовательности.
- Командой grep ">" trna_ecoli.fasta > trna.doc cоздана колонка из названий входных последовательностей, импортирована в Excel.
- Создан скрипт) из команд, выдающих число находок для каждой последовательности. Результат работы скрипта импортирован в Excel.
- В отчётном Excel-файле (trna.xls) в результате должны остаться две колонки: "Names" с названиями последовательнотей, "BLASTN" с числами находок и "BLASTN (E-value=0.001)" с результатами такого же поиска, но с порогом на E-value, равным 0.001.
В целом находок по большинству РНК достаточно много, но хороших гомологов с маленьким e-value гораздо меньше, вплоть до отсутствия для некоторых тРНК.
Отчет по остальным заданиям в формате Word.