Пракикум 7: Нуклеотидные банки данных
Orcinus orca
Косатки, пожалуй, одни из самых сложно организованных существ на планете. Их общество построено по строгому матриархальному принципу: стабильные семейные группы, «поды», на протяжении поколений передают уникальные охотничьи традиции. Поражает специализация: одни семьи виртуозно охотятся на тюленей, полностью перекроив свои социальные повадки, а другие оттачивают мастерство круглогодичной ловли рыбы, используя для координации целые комплексы звуков. Важно, что эти навыки — не врожденный инстинкт, а именно культурное наследие, сравнимое с человеческими языками или технологиями.
Особый феномен — их вокальные «диалекты». Каждая группа обладает уникальным набором звуков, которые детеныши перенимают именно от матери. Их социальность не ограничивается охотой: они демонстрируют заботу о старых и раненых сородичах, а взрослые самцы часто остаются в группе матери на всю жизнь. Исследователи полагают, что по сложности социальной структуры и способности к обучению косатки уступают только человеку, чему способствует и развитая лимбическая система их мозга, ответственная за эмоции.
И да, кОсатка, от испанского «asesina de ballenas» — убийца китов. Касатка — это птичка из семейства ласточковых. Не стоит путать, ибо позвологи сильно обижаются.
Сведения о сборке.
Нуклеотидные и белковые последовательности, а также файл аннотации были скачаны с официального FTP-архива NCBI Genomes:
GCF_937001465.1_mOrcOrc1.1_genomic.fna— последовательности ДНК генома в формате FASTAGCF_937001465.1_mOrcOrc1.1_protein.faa— последовательности белков в формате FASTAGCF_937001465.1_mOrcOrc1.1_genomic.gbff— аннотированный геном
К сожалению, из-за ограничения квоты на сервере kodomo не удалось загрузить файлы genomic.fna и genomic.gbff, зато получилось выложить их на гугл-диск
| Идентификатор GenBank | GCA_937001465.1 |
|---|---|
| Идентификатор RefSeq | GCF_937001465.1 |
| Уровень сборки генома | Chromosome |
| Общий размер генома (п.н.) | 2 647 335 075 |
| Число фрагментов (хромосом) генома в сборке | 22 |
| Число скэффолдов | 447 |
| N50 скэффолдов | 114 219 206 |
| L50 скэффолдов | 9 |
| Число контигов | 570 |
| N50 контигов | 45 583 382 |
| L50 контигов | 16 |
Поисковые системы NCBI и ENA
В рамках исследования проведен сравнительный поиск информации о генах и мРНК белка альбумин в двух международных базах. Результаты по NCBI (сводные данные в Таблице 2) и ENA приведены ниже.
Результаты поиска в ENA:
- мРНК человека: 2 157 записей
- Геномная ДНК человека: 13 записей
Так как поиск в базе ENA по альбумину человека дал значительно меньше записей (2 157 для мРНК), чем общий поиск в NCBI (9 254 для мРНК), для корректного сравнения систем пришлось ориентироваться на данные, относящиеся только к человеку (Homo sapiens).
Исходя из сравнения итоговых цифр, можно сделать вывод, что системы в равной степени пригодны для поиска основных массивов данных: для мРНК человека результаты близки (NCBI: 2 652, ENA: 2 157), однако NCBI предоставляет более детализированную и структурированную информацию за счет разделения на GenBank и курируемый RefSeq, что делает его предпочтительным для комплексного анализа. ENA эффективна для быстрого получения конкретных архивных записей.
| База данных | mRNA | Human mRNA | Genomic DNA or RNA | Human gDNA/RNA | Всего |
|---|---|---|---|---|---|
| GenBank | 7 487 | 2 651 | 15 980 | 11 946 | 26 032 |
| RefSeq | 1 767 | 1 | 3 | 2 | 1 792 |
| Всего | 9 254 | 2 652 | 15 983 | 11 948 | 27 824 |