Банки нуклеотидных последовательностей
Задание 1
Для того, чтобы найти какую-либо последовательность, взятую из организма, который был взят на ББС, я написал скрипт на Python с использованием модуля Bio.Entrez. Ему аргументом командной строки подаётся текст запроса, по которому и программа и будет, собственно, искать. Результатом деятельности программы является вывод в консоль 5-ти первых найденных записей (это я задал специально) в формате
(base) lewis@LewisMacbook Downloads % python3 5_query_search_nucleotide.py 'WSBS' LOCUS MN240289 503 bp DNA linear INV 24-APR-2020 DEFINITION Sarsia lovenii isolate S24 internal transcribed spacer 1, partial sequence; 5.8S ribosomal RNA gene and internal transcribed spacer 2, complete sequence; and large subunit ribosomal RNA gene, partial sequence. ACCESSION MN24028 .......... 5 handles here... .......... 481 ttgctttaac ttaaccgggt tcacccagag gttcgcctca aaatctacat tttgacctca 541 gatcagacaa gactacccgc tga // (base) lewis@LewisMacbook Downloads %
Какую бы вариацию запроса про ББС я не подавал, выдавало мне всё одну и ту же запись (АС: MN240289) разных версий редактирования, но в тексте записи про ББС вообще не было ни слова. Тогда я решил почитать статью PubMed, ID которой я нашёл прямо в тексте записи. В статье в аффилиациях была указана ББС МГУ им. Перцова, а также в "Материалах и методах" написно, что "все медузы и гидры рода Sarsia были собраны рядом с Беломорской биологической станцией...", поэтому я уверен, что данная нуклеотидная последовательность взята из организма с ББС.
Описание записи:
- AC записи: MN240289;
- Это у нас ДНК, длиной 503 пары оснований. Дата депонирования: 24 апреля 2020;
- Авторы записи: Прудковский А. А., Екимова И. А. и Неретина Т. В.;
- Организм: Sarsia lovenii (гидра с явным чередованием равных поколений полипа и медузы);
- В source ну вот вообще ничего интересного;
- Название гена: 5.8S рРНК и рРНК большой субъединицы (неполная последовательность);
- wsbs_seq.fasta, скачана с помощью скрипта.
Задание 2
Я решил посмотреть геном обычной комнатной мухи (Musca domestica).
Муху эту мы все знаем, так как она встречается почти в каждом доме. Но стоит отметить, что в России распространено 2 её вида: обыкновенная и южная комнатные мухи (Musca domestica domestica и Musca domestica vicina), в то время как референсная сборка генома указывается лишь для одной. Муха эта - типичный синантропный организм (то есть такой, чья жизнедеятельность тесно связана с жизнедеятельностью человека. К синантропным организмам можно также отнести тараканов).

В NCBI я нашёл всего 3 сборки генома комнатной мухи, и только один из них был на уровне скэффолда. Её я, собственно, и выбрал, как лучшую.
- Название сборки: Musca_domestica-2.0.2;
- RefSeq AC сборки: GCF_000371365.1;
- "Уровень" сборки: скэффолд;
- Общая длина последовательности: 750,403,944;
- Число контигов: 104,054;
- Число скэффолдов: 20,487;
- Контиг N50: 11,807;
- Контиг L50: 14,933;
- Скэффолд N50: 226,573;
- Скэффолд L50: 809;
- Число аннотированных белков: 0. При этом у копии сборки в RefSeq было найдено 21,309 аннотированных белков;
- Ссылка на публикацию с описанием проекта (BioProject);
- Ссылка на последовательность одного из контигов в формате
fasta . Чтобы получить эту последовательность, я по ссылке перешёл в WGS проект, там по ещё одной ссылке в поле "WGS" в самой записи проекта перешёл на страничку со списком контигов. Там я уже рядом с самим выбранным мною контигом в столбце "View" выбрал формат "FASTA", а после увидел и скачал то, что мне нужно.
Задание 3
Сначала я в строке поиска NCBI по Nucleotide просто вбил название своего коронавируса "Merbecovirus". Результатом поиска была база NCBI Virus с таблицей из 1500+ находок. В ней (в таблице) я сразу добавил несколько столбцов (Nuc Completeness, Genotype) и несколько убрал (Geo Location, USA), и сохранил всю таблицу в формате
В итоге всего 559 находок с полным геномом, и только 5 из них из в RefSeq.
Задание 4
- АС: NC_038294;
- Название вида: Merbecovirus;
- TaxID NCBI: 1263720;
- Тип генома: линейный ssРНК положительный геном;
- Хозяин: человек;
- Файл с последовательностями, которые, предположительно, являются кодирующими белки участками генома. Получил я его с помощью таких манипуляций: Send to: > Coding sequences на странице генома в GenBank, после чего выбрал формат "FASTA Nucleotide" и скачал.
Задание 5
Расскажу я про массовый геномный проект про секвенирование 10,000 геномов разных рыб. Авторы указывают, что в отличие от геномов птиц и млекопитающих, которых, по их мнению, секвенируют гораздо больше, чем рыб, полных отсеквенированных геномов рыб на момент создания проекта крайне мало (216 геномов в 56 отрядах из 80 отрядов рыб). Наличие достаточного количества качественно отсеквенированных геномов рыб позволило бы гораздо лучше преисполниться в их познании, отмечают авторы.
План проекта таков:
- 1 и 2 стадии: отсеквенировать геномы организмов как минимум из одного вида каждого семейства и отряда, используя synthetic long-read sequencing, third generation long-read sequencing вместе с Hi-C sequencing для более качественного секвенирования;
- 3 стадия: отсеквенировать оставшиеся виды рыб до 10,000, используя более ресурсо-, материалозатратные и быстрые способы секвенирования, чтобы в меньший промежуток времени получить больше пусть и более грубо отсеквенированных геномов.

Результатом проекта является 10,000 полностью отсеквенированных геномов 10,000 видов рыб, по одному из каждого. Авторы сообщают, что полученные данные помогут "лучше понимать рыб" и "ускорят их геномные исследования".
- Название проекта: The 10,000 fish genomes project (Fish10K);
- Ссылка на страницу в NCBI BioProject, ссылка на веб-страницу самого проекта;
- Цель: полностью отсеквенировать 10,000 геномов организмов из 10,000 видов рыб так, чтобы охвачены были все отряды и семейства;
- Год начала: 2019;
- Год окончания: проект ещё не завершён;
- Организации: BGI-Q и Frasergen;
- Страна: Китай;
- Планируемое число геномов: 10,000;
- Отсеквенировано на данный момент (31.10.2020): 105;
- 1, 2, 3 последние публикации по проекту в PubMed (17.06.2020).