Банки нуклеотидных последовательностей

Мной был выбран геном осьминога Octopus bimaculoides. Для него известна одна сборка генома. Его видового названия нет в русском варианте, но калька с английского звучит так: "Калифорнийский осьминог с двумя пятнами". Что, в принципе, логично, потому что macula переводится с латыни как пятно.

im
Рис. 1.

Изображение Octopus bimaculoides с сайта



Данный осьминог выделяется среди всех остальных своими двумя пятнами по обе стороны от головы. Он очень интересен исследователям, потому что является единственным представителем мягкотелых головоногих, чей геном был полностью секвенирован. Особых причин для выбора именно этого вида не было, возможно, исследователи полагались на его широкую распространенность и внешнюю привлекательность. В целом, осьминоги - интересный объект для изучения благодаря их сложному поведению и необычной эволюции. Осьминоги даже послужили источником вдохновения для робототехников, которые придумали особо подвижные руки для своих роботов (ссылка на статью).

Учитывая замечательность объекта, сборка его генома стала в своём роде событием и была опубликована в nature (ссылка на статью).

assembly name Octopus_bimaculoides_v2_0
AC сборки из RefSeq GCA_001194135.1
Уровень сборки (Assembly level) Scaffold
Oбщая длина последовательности 2,338,188,78
Число контигов (contigs) 700,124
Contig N50 5,532
Contig L50 97,860
Число скэффолдов (scaffolds) 151,674
Scaffold N50 475,182
Scaffold L50 1,333
Число аннотированных белков 23,994


Последовательность контига в формате FASTA
Данный белок, согласно выдаче blast - один из цинковых пальцев.

Прокариотический вирус

Текст запроса в Nucleotide NCBI:
"Inoviridae"[Organism] AND (complete[All Fields] AND genome[All Fields]) AND ("7000"[SLEN] : "8000"[SLEN]).
Общее число находок 38, из них 24 GenBank и 14 RefSeq.
Мной был выбран геном бактериофага Ralstonia (ссылка). Данный бактериофаг известен тем, что он заражает бактерии Ralstonia solanacearum, образующие бляшки в ксилеме растений.

Описание генома, часть данных была получена отсюда.

AC нуклеотидной записи NC_025454.1
Латинское название и TaxID вида Ralstonia phage RS603, 1505528
Тип генома Кольцевая ssDNA
Хозяин вируса bacteria: Ralstonia


FASTA-файл с участками генома, кодирующими белки
Получение файла: send to => coding sequences => FASTA (nucleotide). ,

Ключи из feature table

No key описание
1 S_region B-клетки могут производить разные типы иммуноглобулинов (IgM, IgG и т.д.). CSR (class-switch recombination) - рекомбинация, при которой заменяется константный участок тяжёлой цепи. Данный идентификатор обозначает координаты и прочие х-ки области рекомбинации
2 telomere область, для которой экспериментально доказано, что она является теломерой
3 tmRNA tRNA с mRNA-подобным доменом, в котором находится ORF. Помогает застрявшим рибосомам освободиться от mRNA и способствует разрушению дефектного пептида.
4 source обязательный ключ, являющийся указанием на источник определённого промежутка последовательности. Допускается более одного источника.
5 propeptide Пропептид - предшественник белка, который становится активным белком в результате пост-трансляционных модификаций. Ключ указывает на вырезаемую последовательность
6 mobile_element область генома, содержащая мобильные элементы
7 exon область экзона


1.
S_region        4219..4500
                /gene="IgH"
                /note="switch mu"
S_region        4501..5647
                /gene="IgH"
                /note="switch gamma1"

2.
telomere        161..1167
                /note="telomere repeat"
                /rpt_type=tandem
                /rpt_unit_seq="taaccc"

3.
tmRNA           1..363
                /gene="tmRNA Esche_coli_K12"
                /product="transfer-messenger mRNA Esche_coli_K12"
                /tag_peptide=90..122
                /note="Tag:(A)ANDENYALAA**;
                ECO:0000305;
                SO:0000584;
                GO:0070929"

4.
source          1..363
                /organism="Homo sapiens"
                /mol_type="genomic DNA"
                /db_xref="taxon:9606"

5.
propeptide      join(241..550,603..971)
                /gene="krtC"
                /product="pro-neutral protease"

6.
mobile_element  4091..>14391
                /mobile_element_type="integron:class 1"

7.
exon            6353..8446
                /gene="ARID1B"
                /gene_synonym="6A3-5; BAF250B; BRIGHT; CSS1; DAN15;
                ELD/OSA1; MRD12; OSA2; P250R"
                /inference="alignment:Splign:2.1.0"
                /number=1


Поиск массовых геномных проектов

Был написан небольшой pyhton-ноутбук с реализацией поиска массовых геномных проектов.
Подробное описание работы ноутбука:
1) от пользователя требуется ввести, для какого организма (или группы организмов) требуется найти геномные проекты.
2) затем мы интересуемся у пользователя, что ему важнее: полнота нашего ответа или скорость.
3) сначала выбираем несколько подходящих нам результатов из интернета (не вручную, разумеется).
4) если пользователю важно найти как можно больше геномных проектов, осуществляем следующее: обходим все ссылки, дающиеся нам на найденных сайтах. Если по ссылке находится название нашего организма и слова "group" и "project", тогда добавляем ссылку к нашим результатам.
5) объединяем те сайты, которые мы нашли в п.3 и в п.4, убираем повторяющиеся.
6) чтобы обнаружить в получившихся ссылках именно геномные проекты, проводим "машин-лернинг для самых маленьких". Превращаем слова в бинарные признаки, отбираем признаки, делаем кластеризацию по k-means, выдаём найденные сайты наборами по числу кластеров. Прохождение по ссылкам взваливаем на плечи пользователя, потому что мне не хватает ума для того, чтобы сделать что-нибудь поэлегантнее.

Что не получилось

Не получилось посчитать всё, потому что на это может уйти несколько часов, а мне хочется спать.
Не получилось создать очень точный классификатор и автоматизировать установку количества кластеров.

Что получилось

Получилось собрать все ссылки, потенциально ведущие ко всем существующим геномным проектам.
Получилось всё же кластеризовать результаты, пусть некоторые совсем не туда, но тенденция к правильному прослеживается. Осталось только ещё лучше разобраться, как пополнять список стоп-слов, и тогда всё будет работать совсем хорошо.
Ноутбук. Сообщения об ошибках - исключительно key board interrupt. ССЫЛКА