ФББ 2013-2014

Нуклеотидные базы данных

В прошлом семестре мы ознакомились с белковыми базами данных, в этом семестре нам предстоит работать с нуклеотидными. Самые известные из них - GenBank (NCBI), EMBL, DDBJ (японский). Это банки, в которых помещаются непроверенные экспериментальные данные. Также есть база аннотированных и проверенных последовательностей - RefSeq. Работать с ними удобнее всего с помощью интегрированных систем поиска, в которых поиск осуществляется сразу по всем базам. Примером такой системы является SRS (sequence retrieval system).

В системе SRS найдём все хромосомы пекарских дрожжей. Параметры поиска: Select Database - Refseq_DNA; Organism name: Saccharomyces cerevisiae; Molecule - DNA. Получили результат - 16 хромосом. Хотя это были не единственные находки, отфильтровать нужные записи было очень легко.

REFSEQ_DNA_ALL:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA_ALL:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA_ALL:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA_ALL:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA_ALL:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA_ALL:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA_ALL:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA_ALL:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA_ALL:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA_ALL:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA_ALL:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA_ALL:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA_ALL:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA_ALL:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA_ALL:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA_ALL:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066
	

Теперь найдём длину, количество генов белков и тРНК для 15ой хромосомы.

Теперь зайдём в саму запись RefSeq, нажав на Text Entry вверху страницы. Найдём требуемые гены в этой записи и укажем их координаты.

Получение последовательности, кодирующей заданный белок

По заданному идентификатору белка RefSeq найдём его Uniprot ID и AC. Сделаем это с помощью ID mapping в Uniprot. Получили ID - Q8KDH8_CHLTE, AC - Q8KDH8. Теперь с помощью того же инструмента узнаем AC на EMBL - AE006470.1.

Теперь получим полный EMBL файл с геномом с помощью команды "entret embl:AE006470.1". Сам файл можно скачать здесь. Затем в этом файле я нашла координаты гена заданного белка - (1012730..1013242).

Получим файл с последовательностью кодирующей области в формате .fasta. Для этого воспользуемся командой seqret с опцией -sasq. Введём начало и конец гена по запросу команды. Получили нужный файл, который можно скачать здесь. Также приведу этот файл прямо на сайте, потому что он маленький.

	>AE006470 AE006470.1 Chlorobium tepidum TLS, complete genome.
atgaaacgatcgacactcagcacatgccgtgtggcgctgtttgccctggtgctttccgtt
ggcttgagcgccaatgcgcacgcccttgacaaaggcgacaaggcccctgattttgcgctg
cccggaaaaacgggagtggtgaaactttcggacaagacaggatcggtggtctatctcgat
ttctgggcttcgtggtgcgggccgtgccgtcagtcgtttccgtggatgaaccagatgcag
gcgaagtacaaagcgaagggctttcaggtcgtcgccgtcaacctcgacgccaaaaccggc
gatgccatgaagtttctcgcgcaggttccggcggagttcaccgtggcgttcgacccgaag
gggcagacgcctcgcctctatggcgtcaagggaatgccgaccagcttcctgatcgaccgg
aacggcaaggtgctgttgcagcatgtcggattcagacctgccgacaaggaggcgctcgaa
cagcagattctggcggctctgggaggcaattga
	

Выравнивание белков и их генов

В этом задании требовалось найти гомолог белка Q8KDH8 и составить парное выравнивание аминокислотной последовательности и нуклеотидной последовательности. Я выбрала гомолог с ID B1Y1H9_LEPCP - белок, содержащий редоксиновый домен из бактерии Leptothrix cholodnii. Этот организм филогенетически далёк от Chlorobium tepidum и обитает в совершенно других условиях, однако сходство белковых последовательностей довольно большое. С помощью программы needle я постоила выравнивание, представленное на рисунке 1.

Рис.1. Выравнивание аминокислотных последовательностей двух белков-гомологов. Визуализация с помощью Jalview

Затем я построила выравнивание нуклеотидных последовательностей с помощью программы пакета EMBOSS - tranalign. Она строит выравнивание по кодирующим последовательностям в соответствие с выровненными белками. Соответственно на вход ей необходимо подать нуклеотидные последовательности и уже выровненные аминокислотные последовательности соответствующих белков. Результаты выравнивания представлены на рисунке 2.

Рис.2. Выравнивание нуклеотидных последовательностей двух белков-гомологов. Визуализация с помощью Jalview

Как и ожидалось, количество вставленных гэпов в нуклеотидной последовательности кратно трём, т.к. одну аминокислоту кодирует триплет нуклеотидов.

Поиск в нуклеотидном банке NCBI по имени гена

Я выбрала ген из задания 1 с ID YOL075C. Сначала я решила поискать этот идентификатор в базе данных NCBI Nucleotide без каких либо дополнительных опций. В итоге поиск выдал 96 результатов, первые 5 представлены на рисунке 3.

Рис.3. Первые результаты поиска в NCBI

Среди них нет нужных нам результатов. Теперь попробуем отфильтровать результаты по следующим критериям: Species (Fungi), Molecule types (genomic DNA/RNA), Source databases (RefSeq). Результатов получили 19, но среди них почему-то полные хромосомы разных грибов. На самом деле, результат, который был нужен - положение этого гена на хромосоме - показывается в рамочке над результатами поиска.

В целом искать в NCBI, на мой взгляд, довольно удобно, но надо привыкнуть, так как часто будут попадаться повторы одного и того же из-за разных проектов секвенирования или вообще что-то, что не несёт биологического смысла. Нужно уметь пользоваться фильтрами и тогда всё будет хорошо.