ФББ 2013-2014
Нуклеотидные базы данных
В прошлом семестре мы ознакомились с белковыми базами данных, в этом семестре нам предстоит работать с нуклеотидными. Самые известные из них - GenBank (NCBI), EMBL, DDBJ (японский). Это банки, в которых помещаются непроверенные экспериментальные данные. Также есть база аннотированных и проверенных последовательностей - RefSeq. Работать с ними удобнее всего с помощью интегрированных систем поиска, в которых поиск осуществляется сразу по всем базам. Примером такой системы является SRS (sequence retrieval system).
В системе SRS найдём все хромосомы пекарских дрожжей. Параметры поиска: Select Database - Refseq_DNA; Organism name: Saccharomyces cerevisiae; Molecule - DNA. Получили результат - 16 хромосом. Хотя это были не единственные находки, отфильтровать нужные записи было очень легко.
REFSEQ_DNA_ALL:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA_ALL:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA_ALL:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA_ALL:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA_ALL:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA_ALL:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA_ALL:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA_ALL:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA_ALL:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA_ALL:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA_ALL:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA_ALL:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA_ALL:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA_ALL:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA_ALL:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA_ALL:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
Теперь найдём длину, количество генов белков и тРНК для 15ой хромосомы.
Теперь зайдём в саму запись RefSeq, нажав на Text Entry вверху страницы. Найдём требуемые гены в этой записи и укажем их координаты.
Получение последовательности, кодирующей заданный белок
По заданному идентификатору белка RefSeq найдём его Uniprot ID и AC. Сделаем это с помощью ID mapping в Uniprot. Получили ID - Q8KDH8_CHLTE, AC - Q8KDH8. Теперь с помощью того же инструмента узнаем AC на EMBL - AE006470.1.
Теперь получим полный EMBL файл с геномом с помощью команды "entret embl:AE006470.1". Сам файл можно скачать здесь. Затем в этом файле я нашла координаты гена заданного белка - (1012730..1013242).
Получим файл с последовательностью кодирующей области в формате .fasta. Для этого воспользуемся командой seqret с опцией -sasq. Введём начало и конец гена по запросу команды. Получили нужный файл, который можно скачать здесь. Также приведу этот файл прямо на сайте, потому что он маленький.
>AE006470 AE006470.1 Chlorobium tepidum TLS, complete genome. atgaaacgatcgacactcagcacatgccgtgtggcgctgtttgccctggtgctttccgtt ggcttgagcgccaatgcgcacgcccttgacaaaggcgacaaggcccctgattttgcgctg cccggaaaaacgggagtggtgaaactttcggacaagacaggatcggtggtctatctcgat ttctgggcttcgtggtgcgggccgtgccgtcagtcgtttccgtggatgaaccagatgcag gcgaagtacaaagcgaagggctttcaggtcgtcgccgtcaacctcgacgccaaaaccggc gatgccatgaagtttctcgcgcaggttccggcggagttcaccgtggcgttcgacccgaag gggcagacgcctcgcctctatggcgtcaagggaatgccgaccagcttcctgatcgaccgg aacggcaaggtgctgttgcagcatgtcggattcagacctgccgacaaggaggcgctcgaa cagcagattctggcggctctgggaggcaattga
Выравнивание белков и их генов
В этом задании требовалось найти гомолог белка Q8KDH8 и составить парное выравнивание аминокислотной последовательности и нуклеотидной последовательности. Я выбрала гомолог с ID B1Y1H9_LEPCP - белок, содержащий редоксиновый домен из бактерии Leptothrix cholodnii. Этот организм филогенетически далёк от Chlorobium tepidum и обитает в совершенно других условиях, однако сходство белковых последовательностей довольно большое. С помощью программы needle я постоила выравнивание, представленное на рисунке 1.
Рис.1. Выравнивание аминокислотных последовательностей двух белков-гомологов. Визуализация с помощью Jalview
Затем я построила выравнивание нуклеотидных последовательностей с помощью программы пакета EMBOSS - tranalign. Она строит выравнивание по кодирующим последовательностям в соответствие с выровненными белками. Соответственно на вход ей необходимо подать нуклеотидные последовательности и уже выровненные аминокислотные последовательности соответствующих белков. Результаты выравнивания представлены на рисунке 2.
Рис.2. Выравнивание нуклеотидных последовательностей двух белков-гомологов. Визуализация с помощью Jalview
Как и ожидалось, количество вставленных гэпов в нуклеотидной последовательности кратно трём, т.к. одну аминокислоту кодирует триплет нуклеотидов.
Поиск в нуклеотидном банке NCBI по имени гена
Я выбрала ген из задания 1 с ID YOL075C. Сначала я решила поискать этот идентификатор в базе данных NCBI Nucleotide без каких либо дополнительных опций. В итоге поиск выдал 96 результатов, первые 5 представлены на рисунке 3.
Рис.3. Первые результаты поиска в NCBI
Среди них нет нужных нам результатов. Теперь попробуем отфильтровать результаты по следующим критериям: Species (Fungi), Molecule types (genomic DNA/RNA), Source databases (RefSeq). Результатов получили 19, но среди них почему-то полные хромосомы разных грибов. На самом деле, результат, который был нужен - положение этого гена на хромосоме - показывается в рамочке над результатами поиска.
В целом искать в NCBI, на мой взгляд, довольно удобно, но надо привыкнуть, так как часто будут попадаться повторы одного и того же из-за разных проектов секвенирования или вообще что-то, что не несёт биологического смысла. Нужно уметь пользоваться фильтрами и тогда всё будет хорошо.