Нуклеотидные банки данныхЗнакомство со структурой банка RefSeq посредством поисковой системы SRS Через поисковую систему SRS получен список хромосом дрожжей Saccharomyces cerevisiae. Для этого на странице "Select Databanks" нужно отметить чекбокс "RefSeq_DNA (release)" и нажать "Standard Query Form". Затем ввести "Saccharomyces cerevisiae" в поле Organism Name и "DNA" в поле Molecule. Далее отметить галочками те строки, которые отвечают хромосомам, нажать Save и ещё раз Save. Полученный текст: REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066 Для дальнейшей работы выбрана вторая хромосома. Номер заданной хромосомы вычислен следующим образом: 1 + 1 (остаток от деления моего порядкового номера (33) в списке студентов второго курса) = 2. Длина хромосомы (указана в поле Sequence Length) составляет 813184 пар оснований. Количество генов белков (совпадает с количеством кодирующих последовательностей (поле CDS)) - 408. Число тРНК (поле tRNA) - 13. С помощью полного текста записи Refseq найдены примеры различные примеры генов данной хромосомы. Полный текст записи Refseq можно просмотреть, нажав ссылку Text Entry в верхней части страницы. Информация о некоторых генах второй хромосомы представлена на таблице 1. Таблица 1. Примеры генов на второй хромосоме Saccharomyces cerevisiae.
Получение последовательности, кодирующей заданный белок Для белка с идентификатором YP_002797966.1 в базе данных NCBI Protein Database в прошлом семестре (ссылка на соответствующий практикум) был получен Uniprot ID (C1DLP3_AZOVD) и AC (C1DLP3). С помощью команды "entret uniprot:C1DLP3" (выполнена на сервере kodomo), был получен файл c1dlp3_azovd.entret, в котором в строке, начинающейся с "DR EMBL", сразу после "EMBL" идёт AC соответствующих записей EMBL: CP001157 (содержит полный геном бактерии Azotobacter vinelandii DJ) и ACO76991.1 (содержит информацию о заданном белке). С помощью команд: "entret embl:ACO76991.1" и "entret embl:CP001157" получены файлы aco76991.entret и cp001157.entret с соответствующими полными записями EMBL. Получить последовательность заданного белка можно несколькими способами: вырезать из общего файла с геномом бактерии либо переконвертировать отдельный файл EMBL, соответствующий нашему белку, в fasta-формат. Чтобы вырезать участок, кодирующий заданный белок, из общего файла с геномом бактерии, нужно сначала определить его координаты и направление (их можно найти в любом из файлов aco76991.entret и cp001157.entret), а затем применить к файлу cp001157.entret команду seqret с опцией -sask. Координаты участка, кодирующего заданный белок: 702956..703771. Участок расположен на комплементарной цепи. В результате всех описанных действий получен файл cp001157.fasta с последовательностью гена в формате fasta. Кроме того, тот же результат можно получить быстрее, получив последовательность гена, непосредственно используя AC записи EMBL, соответствующей гену заданного белка (ACO76991.1). Для этого можно использовать команду: "seqret embl:ACO76991.1 aco76991.fasta". Файл aco76991.fasta, полученный данным способом, содержит ту же последовательность, что и файл cp001157.fasta, полученный способом, описанным в задании. Выравнивание белков и их генов Для построения выравниваний был взят гомолог P9WHF6.1 (putative thiosulfate sulfurtransferase SseA) белка rhodanese бактерии Azotobacter vinelandii DJ, найденный и выбранный ранее, с помощью программы BLAST (ссылка на соответствующий практикум). Для гомолога скачана последовательность из базы данных NCBI Protein Database (P9WHF6.fasta). С помощью программы needle (с опцией -aformat3 fasta) постоено выравнивание последовательностей белка rhodanese и его гомолога. Файл с выравниванием в fasta формате - needle_prot.fasta. Наглядное представление выравнивания можно увидеть на рис. 1. Рис. 1. Выравнивание аминокислотных последовательностей белка rhodanese бактерии Azotobacter vinelandii DJ и белка putative thiosulfate sulfurtransferase SseA бактерии Mycobacterium tuberculosis CDC1551 в раскраске ClustalX. Консервативность "By Conservation" 60%. Выравнивание получено с помощью программы needle. Изображение получено с помощью программы Jalview. Для белка putative thiosulfate sulfurtransferase SseA с помощью команды "seqret embl:AAK47725.1 aak47725.fasta" получена нуклеотидная последовательность соответствующего гена. Полученный файл - aak47725.fasta. С помощью программы needle построено выравнивание последовательностей генов исследуемого белка и его гомолога. Файл с выравниванием в fasta формате - needle_gene.fasta. Наглядное представление выравнивания можно увидеть на рис. 2. Рис. 2. Выравнивание последовательностей генов белков rhodanese бактерии Azotobacter vinelandii DJ и белка putative thiosulfate sulfurtransferase SseA бактерии Mycobacterium tuberculosis CDC1551 в раскраске ClustalX. Консервативность "Above identity threshold" 100%. Выравнивание получено с помощью программы needle. Изображение получено с помощью программы Jalview. Программа tranalign генерирует выравнивание нуклеотидных последовательностей генов белков на основе уже существуюжего выравнивания их аминокислотных последовательностей. На вход программе был подан файл, содержащий последовательности генов исследуемого белка и его гомолога, а также файл с выравниванием их аминокислотных последовательностей, полученный ранее с помощью программы needle. Программа выдала следующую ошибку:"Error: Guide protein sequence THT2_MYCTO not found in nucleic sequence AAK47725". Это значит, что последовательность гена белка putative thiosulfate sulfurtransferase SseA не соответствует последовательности белка, содержащийся в выравнивании (т. е. одна из последовательностей содержит ошибку). Чтобы привести последовательности в соответствие, с помощью сервиса EMBOSS Transeq получена аминокислотная последовательность белка putative thiosulfate sulfurtransferase SseA, соответствующая нуклеотидной последовательности гена, содержащейся в файле aak47725.fasta. Построено needle-выравнивание транслированной последовательности и последовательности белка rhodanese. Затем, это выравнивание использовалось для повторного запуска программы tranalign. Файл с полученным (с помощью tranalign) выравниванием в fasta формате - tranalign_gene.fasta. Наглядное представление выравнивания можно увидеть на рис. 3. Рис. 3. Выравнивание последовательностей генов белков rhodanese бактерии Azotobacter vinelandii DJ и белка putative thiosulfate sulfurtransferase SseA бактерии Mycobacterium tuberculosis CDC1551 в раскраске ClustalX. Консервативность "Above identity threshold" 100%. Выравнивание получено с помощью программы tranalign. Изображение получено с помощью программы Jalview. У программ needle и tranalign принципиально разный подход с построению выравниваний нуклеотидных последовательностей: needle выравнивает на основе побуквенного сходства последовательностей, tranalign использует соответствующее выравнивание последовательностей белков. Это является основной причиной различия этих выравниваний. Выравнивание needle местами совпадает с выравниванием tranalign, но оно длиннее, в нём много участков с гэпами длиной, не кратной трём (что не имеет биологического смысла, т. к. один кодон состоит из трёх нуклеотидов). В целом, способ выравнивания на основе побуквенного сходства не слишком подходит для выравнивания последовательностей генов, потому что вероятность случайного совпадения букв очень велика (в силу того, что букв всего 4). Соответственно, выравнивание с помощью tranalign можно считать более достоверным. Однако, его правильность также является спорной, т. к. она напрямую зависит от правильности выравнивания последовательностей белков (а то, насколько достоверно выравнивание аминокислотных последовательностей, неизвестно). Поиск в нуклеотидном банке NCBI по имени гена Выполнен поиск гена BRN1 бактерии Saccharomyces cerevisiae в нуклеотидном банке NCBI. Поиск по запросу "BRN1[Gene Name]" осуществлялся по базе данных "Gene". Найдено 10 записей, соответствующих последовательностям гена BRN1 в основмном из разных организмов (для 6 из них название "BRN1" указано как альтернативное), вторая находка в списке - нужный нам ген бактерии Saccharomyces cerevisiae. Только две находки относились к одному организму (Candida albicans). Это записи с ID: 3641838 и с ID: 3641815. Эти гены, хоть и имеют одинаковые названия и совершенно одинаковые последовательности, однако, находятся в разных локусах, поэтому, скорее всего, у данного организма ген BRN1 закодирован два раза. Файл с информацией о результатах поиска можно посмотреть здесь.
© Shvetsova Ekaterina, FBB MSU, 2013 |