EMBL and NA sequence

EMBL - Европейская Лаборатория Молекулярной Биологии (European Molecular Biology Laboratory), EBI- Европейский Биоинформатический институт (European Bioinformatics Institute), SRS - Система Поиска Последовательностей (Sequence Retrieval System).
Адрес: srs.ebi.ac.uk

a. Дата и количество записей последнего проиндексированного релиза EMBL .

Library Page -> EMBL (release) (клик)

Количество записей: 82772678. Последняя индексация: 18 сенября 2012 года.

b. Список классов, количество записей в них.

Library Page -> EMBL (release) (клик)
-> Data Class 
-> List values

Результат:

CON:	Constructed sequence	-
EST:	Expressed Sequence Tag	-
GRV:	Genome Reviews	-
GSS:	Genome Survey Sequence	34528104
HTC:	High Throughput cDNA sequencing	491770
HTG:	High Throughput Genome sequencing	152599
MGA:	Mass Genome Annotation	-
PAT:	Patent	24364832
SET:	Project set (EMBL WGS Masters only)	-
STD:	Standard	13920617
STS:	Sequence Tagged Site	1322570
TSA:	Transcriptome Shotgun Assembly	7992186
WGS:	Whole Genome Shotgun	-

c. Список разделов, количество записей в них.

Library Page -> EMBL (release) (клик)
-> Divisions 
-> List values

Результат:

ENV:	Environmental Samples	Образцы, выделенные из окружающей среды	7762556
FUN:	Fungi	Грибы	2402829
HUM:	Human	Человек	11304977
INV:	Invertebrates	Беспозвоночные	7398340
MAM:	Other Mammals	Другие млекопитающие	6741732
MUS:	Mus musculus	Мышь обыкновенная	5163724
PHG:	Bacteriophage	Бактериофаг	8503
PLN:	Plants	Растения	20284404
PRO:	Prokaryotes	Прокариоты	1639517
ROD:	Rodents	Грызуны	1313761
SYN:	Synthetic	Искусственные	4045013
TGN:	Transgenic	Трансгенные	285306
UNC:	Unclassified	Неклассифицированные	8617170
VRL:	Viruses	Вирусы	1358516
VRT:	Other Vertebrates	Другие черепные	4446330

d*. Тенденции в заполнении банка данных.

Выбранные разделы: HUM, ENV и PRO. Класс: STD. Выбранные годы и месяцы для статистики: январь, ферваль, март 2011 и 2012 годов.

Я проводила поиск с помощью Extended Query Form. Использовала банк EMBL, а не EMBL (release), так как он не охватывает исследуемые промежутки времени.

Пример запроса (Класс: STD. Раздел: ENV, HUM или PRO. Дата создания: январь 2011 года, включая 1 февраля, что не принципиально):

(([embl-Class:std] & (([embl-Division:env] | [embl-Division:hum]) | [embl-Division:pro])) & [embl-DateCreated#20110101:20110201])

Результаты получила и оформила в виде документа exel с двумя графиками: result.xlsx

Первый отображает зависимость суммарного числа статей за период январь-март от года:

Второй позволяет оценить зависимость и от месяца внутри года:

Замечаю, что от года к году статей добавляется всё больше. Тем не менее, зависимость количества новых статей от времени не прямая для оценки по месяцам. Это видно из неожиданно низкого числа статей в феврале 2012.

Следую по адресу P:\y11\Term_3\Block_2. Нахожу файл BA000025.embl , открываю. Из описания (Homo sapiens genomic DNA, chromosome 6p21.3, HLA Class I region.) делаю вывод, что передо мною - последовательность региона HLA Class I - локуса p21.3 шестой хромосомы. В FAR с помощью F7 нахожу название данного гена: HLA-C. Первое совпадение в тексте: 2333 строка из 41850.

Участок, из которого можно взять требуемую информацию: join(671525..671597,671728..671997,672248..672523, 673111..673386,673511..673630,674071..674103, 674211..674258,674423..674427)

Направление гена - прямое. (Отсутствует упоминание "complement". Обратное направление гена было бы при записи "complement(join(.. .. ..))")
Число кодирующих участков: 8. Интронов: 7 (некодирующие участки).
Длина первого кодирующего учатка: 671525-671597+1=73
Длина последнего кодирующего участка: 674427-674423+1=5
Длина первого интрона: 671727-671598-1=128
Длина интрона перед последним кодирующим участком: 674422-674259-1=162

Вырезаю самый длинный кодирующий участок в отдельный файл. Для этого использую командную строку.

Самый длинный экзон - третий, в 276 нуктеотидов. Вырезать его последовательность можно с помощью seqret. Интересно, что его можно взять и из отдельной записи о гене HLA-C (я беру запись с названием HE995438, которая представляет собою последовательность аллели HLA-C*05:01var), и из заданной записи BA000025 (результат секвенирования локуса хромосомы).

############
# Кстати, достать запись embl о гене HLA-C можно, используя команду:
# entret embl:HE995438 HLA-C.embl
# Получаю файл HLA-C.embl.
#
#
############

Последовательность действий в командной строке для первого случая, получение файла HLA-C.fasta:


C:\2012_2013\Block2>seqret embl:HE995438 HLA-C.fasta -sask
Read and write (return) sequences
     Begin at position [start]: 740
       End at position [end]: 1015
        Reverse strand [N]:

Для второго случая, получение файла HLA-C(1).fasta:


C:\2012_2013\Block2>seqret embl:BA000025 HLA-C(1).fasta -sask
Read and write (return) sequences
     Begin at position [start]: 672248
       End at position [end]: 672523
        Reverse strand [N]:

Используя blastn (с пометкой "Align two or more sequence"), сравниваю последовательности:

######################

>lcl|60821 
Length=276

 Score =   457 bits (247),  Expect = 2e-133
 Identities = 265/274 (97%), Gaps = 0/274 (0%)
 Strand=Plus/Plus

Query  1    GGTCTCACACCCTCCAGAGGATGTATGGCTGCGACCTGGGGCCCGACGGGCGCCTCCTCC  60
            ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct  1    GGTCTCACACCCTCCAGAGGATGTATGGCTGCGACCTGGGGCCCGACGGGCGCCTCCTCC  60

Query  61   GCGGGTATAACCAGTTCGCCTACGACGGCAAGGATTACATCGCCCTGAATGAGGACCTGC  120
            |||||||| |||||| ||||||||||||||||||||||||||||||||| ||||||||||
Sbjct  61   GCGGGTATGACCAGTCCGCCTACGACGGCAAGGATTACATCGCCCTGAACGAGGACCTGC  120

Query  121  GCTCCTGGACCGCCGCGGACAAGGCGGCTCAGATCACCCAGCGCAAGTGGGAGGCGGCCC  180
            |||||||||||||||||||||  ||||||||||||||||||||||||| |||||||||||
Sbjct  121  GCTCCTGGACCGCCGCGGACACCGCGGCTCAGATCACCCAGCGCAAGTTGGAGGCGGCCC  180

Query  181  GTGAGGCGGAGCAGCGGAGAGCCTACCTGGAGGGCACGTGCGTGGAGTGGCTCCGCAGAT  240
            ||| ||||||||||| ||||||||||||||||||||||||||||||||||||||||||||
Sbjct  181  GTGCGGCGGAGCAGCTGAGAGCCTACCTGGAGGGCACGTGCGTGGAGTGGCTCCGCAGAT  240

Query  241  ACCTGGAGAACGGGAAGAAGACGCTGCAGCGCGC  274
            ||||||||||||||||| ||||||||||||||||
Sbjct  241  ACCTGGAGAACGGGAAGGAGACGCTGCAGCGCGC  274

######################

Последовательности незначитально отличаются, что может происходить по двум причинам: незначительно отличающиеся генотипы, взятые для секвенирования; разные аллели одного гена. Ради интереса и тренировки навыков, проведу дальнешие действия с обоими последовательностями.

Теперь нужно найти белки, содержащие участки, близкие к считываемому с полученных последовательностей. Для этого использую Translated BLAST: blastx (BLASTX производит поиск по базам данных белков, используя транслированную последовательность. Фактически, поиск можно производить с любой кодирующей последовательностью НК). В поле Database указываю UniProtKB/Swiss-Prot(swissprot), хотя такого пункта нет в задании.
В обоих последовательностях обнаружен консервативный домен MHC_I:

Получаем такие выравнивания с его последовательностью соответствено:

###################### Description PssmId Multi-dom E-value MHC_I[pfam00129], Class I Histocompatibility antigen, domains alpha 1 and 2; 201024 no 1.09e-46 Class I Histocompatibility antigen, domains alpha 1 and 2; Cd Length: 178 Bit Score: 149.44 E-value: 1.09e-46

10 20 30 40 50 60 70 80 ....*....|....*....|....*....|....*....|....*....|....*....|....*....|....*....| 10844 RF +3 1 SHTLQRMYGCDLGPDGRLLRGYDQSAYDGKDYIALNEDLRSWTAADTAAQITQRKLEAARAAEQLRAYLEGTCVEWLRRY 80 Cdd:pfam00129 91 SHTLQWMYGCDVGPDGRLLRGYEQFAYDGKDYIALNEDLRSWTAADPAAQITKRKWEAAGEAERERAYLEGECVEWLRRY 170

....*... 10844 RF +3 81 LENGKETL 88 Cdd:pfam00129 171 LENGKETL 178

###################### Description PssmId Multi-dom E-value MHC_I[pfam00129], Class I Histocompatibility antigen, domains alpha 1 and 2; 201024 no 1.09e-46 Class I Histocompatibility antigen, domains alpha 1 and 2; Cd Length: 178 Bit Score: 149.44 E-value: 1.09e-46

10 20 30 40 50 60 70 80 ....*....|....*....|....*....|....*....|....*....|....*....|....*....|....*....| 13081 RF +3 1 SHTLQRMYGCDLGPDGRLLRGYNQFAYDGKDYIALNEDLRSWTAADKAAQITQRKWEAAREAEQRRAYLEGTCVEWLRRY 80 Cdd:pfam00129 91 SHTLQWMYGCDVGPDGRLLRGYEQFAYDGKDYIALNEDLRSWTAADPAAQITKRKWEAAGEAERERAYLEGECVEWLRRY 170

....*... 13081 RF +3 81 LENGKKTL 88 Cdd:pfam00129 171 LENGKETL 178 ######################

Примечательно, что лучшие совпадения для "аллельноного" и "локусного" вариантов восьмого экзона HLA-C не совпадают. Для аллели HLA-C Cw*5 лучший вариант - он же,полное совпадение; для HLA-C из файла - аллель Cw*12 (сортировка по E-value) и аллель Cw*7 (сортировка по Max Ident).

######################

sp|Q9TNN7.1|1C05_HUMAN  RecName: Full=HLA class I histocompatibility antigen, Cw-5 alpha 
chain; AltName: Full=MHC class I antigen Cw*5; Flags: Precursor
Length=366

 GENE ID: 3106 HLA-B | major histocompatibility complex, class I, B
[Homo sapiens] (Over 100 PubMed links)

 Score =   167 bits (423),  Expect = 4e-50, Method: Compositional matrix adjust.
 Identities = 91/91 (100%), Positives = 91/91 (100%), Gaps = 0/91 (0%)
 Frame = +3

Query  3    SHTLQRMYGCDLGPDGRLLRGYNQFAYDGKDYIALNEDLRSWTAADKAAQITQRKWeaar  182
            SHTLQRMYGCDLGPDGRLLRGYNQFAYDGKDYIALNEDLRSWTAADKAAQITQRKWEAAR
Sbjct  116  SHTLQRMYGCDLGPDGRLLRGYNQFAYDGKDYIALNEDLRSWTAADKAAQITQRKWEAAR  175

Query  183  eaeqrraYLEGTCVEWLRRYLENGKKTLQRA  275
            EAEQRRAYLEGTCVEWLRRYLENGKKTLQRA
Sbjct  176  EAEQRRAYLEGTCVEWLRRYLENGKKTLQRA  206

######################

sp|P30508.2|1C12_HUMAN  RecName: Full=HLA class I histocompatibility antigen, Cw-12 alpha 
chain; AltName: Full=MHC class I antigen Cw*12; Flags: 
Precursor
Length=366

 GENE ID: 3107 HLA-C | major histocompatibility complex, class I, C
[Homo sapiens] (Over 100 PubMed links)

 Score =   149 bits (376),  Expect = 3e-43, Method: Compositional matrix adjust.
 Identities = 88/91 (97%), Positives = 88/91 (97%), Gaps = 0/91 (0%)
 Frame = +3

Query  3    SHTLQRMYGCDLGPDGRLLRGYDQSAYDGKDYIALNEDLRSWTAADTAAQITQrkleaar  182
            SHTLQRMYGCDLGPDGRLLRGYDQSAYDGKDYIALNEDLRSWTAADTAAQITQRK EAAR
Sbjct  116  SHTLQRMYGCDLGPDGRLLRGYDQSAYDGKDYIALNEDLRSWTAADTAAQITQRKWEAAR  175

Query  183  aaeqlrayleGTCVEWLRRYLENGKETLQRA  275
             AEQ RAYLEGTCVEWLRRYLENGKETLQRA
Sbjct  176  EAEQWRAYLEGTCVEWLRRYLENGKETLQRA  206

######################

sp|P10321.3|1C07_HUMAN  RecName: Full=HLA class I histocompatibility antigen, Cw-7 alpha 
chain; AltName: Full=MHC class I antigen Cw*7; Flags: Precursor
Length=366

 GENE ID: 3107 HLA-C | major histocompatibility complex, class I, C
[Homo sapiens] (Over 100 PubMed links)

 Score =   147 bits (370),  Expect = 3e-42, Method: Compositional matrix adjust.
 Identities = 90/91 (99%), Positives = 90/91 (99%), Gaps = 0/91 (0%)
 Frame = +3

Query  3    SHTLQRMYGCDLGPDGRLLRGYDQSAYDGKDYIALNEDLRSWTAADTAAQITQrkleaar  182
            SHTLQRM GCDLGPDGRLLRGYDQSAYDGKDYIALNEDLRSWTAADTAAQITQRKLEAAR
Sbjct  116  SHTLQRMSGCDLGPDGRLLRGYDQSAYDGKDYIALNEDLRSWTAADTAAQITQRKLEAAR  175

Query  183  aaeqlrayleGTCVEWLRRYLENGKETLQRA  275
            AAEQLRAYLEGTCVEWLRRYLENGKETLQRA
Sbjct  176  AAEQLRAYLEGTCVEWLRRYLENGKETLQRA  206

######################

Считываемые c разных вариантов гена белки действительно различаются.

Теперь немного о MHC-I.

"MHC" расшифровывется как "Major histocompatibility complex" и переводится как "Главный комплекс гистосовместимости".
Белки этого комплекса располагаются на клеточной мембране лимфоцитов. Они обеспечивают взаимодействия и передачу "информации" между клетками, участвующими в иммунитете организма.

MHC class II опосредуют иммунизацию - специфичность иммунитета - к антигену. Молекулы этого класса представляют антигены из окружающего клетку пространства внутрь.
MHC class I опосредуют разрушение клеток-хозяев, имеющих этот антиген. Молекулы этого класса присутствуют на поверхности почти всех типов клеток.
MHC class III представляют собой элементы системы комплемента.
HLA-C входит в класс MHC class I и является клеточным рецептором с тяжелой цепью (? heavy chain receptor).
Гены MHC располагаются в шестой хромосоме и называются HLA (Human leukocyte antigen, Лейкоцитарный антиген человека).
Существует множество аллелей рецепторов MYC class I. Они формируют гаплотип (совокупность аллелей в одном геноме) на локусе p21.3 хромосомы 6.

Общего вывода из работы сделать пока нельзя. Например, остается неясным, где располагаются в приведенном примере локуса другие аллели HLA-C.

Моему экзону соответствует участок 116-206 белка 1C05_HUMAN (Q9TNN7) для аллели Cw*5.

Требуется найти все ссылки на банк EMBL из записи Swiss-Prot о белке P35160 (Swiss-Prot AC) RESA_BACSU (Swiss-Prot ID).

Для получения записи о белке использую:

entret sw:P35160

Получила файл resa_bacsu.entret. В нем нахожу раздел DR (database cross-reference), выбираю все AC записей о белке из EMBL. Их оказывается всего 2.
Затем следую в SRS. Выполняю последовательно действия:

Library page -> EMBL (галочка) 
-> Standard Query Form (клик)  
Поле "Accession number" -> "AL009126 | L09228" (соответствие) 
Окно "Choose 1 or more fields" -> "ID", "Molecule", "Data class", "Sequence Length", 
"Entry Creation Date", "Description" (последовательное выделение, удерживая Ctrl)
-> Save (клик)

Далее сохраняю в виде таблицы в формате txt, разделение табуляцией.
Формирую таблицу:

ID записи	Тип молекулы	Класс данных	Длина последовательности	Дата внесения в банк	Описание
AL009126	genomic DNA	STD	4215606	18-JUL-2002	Bacillus subtilis subsp. subtilis str. 168 complete genome.
L09228	genomic DNA	STD	28206	17-NOV-1993	Bacillus subtilis spoVA to serA region.

Получаю записи с помощью команд:

entret embl:AL009126 AL009126.embl

entret embl:L09228 L09228.embl

Итак:
AL009126.embl
L09228.embl

Краткие выводы. AL009126 - результат секвенирования Bacillus subtilis subsp. subtilis str. 168 complete genome (полный геном организма Bacillus subtilis, штамм 168).
L09228 - результат секвенирования Bacillus subtilis spoVA to serA region (того же организма, региона со spoVA до serA).
Результат секвенирования региона гораздо "старше" секвенирования полного генома. В нем

Последовательности нуклеиновых кислот: банк EMBL

Задание 1. Знакомство со структурой банка EMBL посредством SRS

Задание 2. Описание гена в записи банка EMBL.

Задание 3. Нахождение белка по фрагменту гена.

Задание 4. Ссылки из записи банка Swiss-Prot на записи банка EMBL.