Банки нуклеотидных последовательностей

Превью:

Используя различные разделы и поиск по конкретным базам данных сайта NCBI, были выполнены нижележащие задания.
Для изучения ключей был так же использовалась справочная страница сайта INSDC - The DDBJ/ENA/GenBank Feature Table Definition

Характеристика качества сборки генома эукариотического организма

Для исследования был выбран организм Triticum aestivum (bread wheat) - пшеница мягкая или летняя, однолетнее травянистое злаковое, относится к подсемейству мятликовые. Далее мы провели поиск через Browse by organism на странице базы данных Genome, всего раздел выдал тринадцать сборок, но в результате выбрана была GCA_900067645.1, как одна из наиболее полных (представлена и более полная GCA_000210335.1, но в ней указана partial genome representation и нет данных о покрытии.

Вот некоторая информация о проектах и о сборке в частности:

Количество проектов 11

Выбранный проект PRJEB11773

Количество образцов 13

Выбранный образец Biosample SAMEA3663800

Имя сэмпла(Sample name) Triticum_aestivum_CS42_TGAC_v1

SRA ERS970949 ( assembly for Chinese spring)

Технология секвенирования whole genome shotgun sequencing

Покрытие 40х

Число контигов 1743969

Число скэффолдов 735943

N50 21299

L50 169174

Самый длинный контиг Contig_1(длина - 508,392)

Самый короткий контиг Contig_735943(длина - 501)

Адрес таблицы контигов html https://www.ncbi.nlm.nih.gov/Traces/wgs/?val=FAOM01&display=contigs&page=1

Ссылка на tsv-таблицу контигов FAOM01_contigs.tsv

Ключи и их описания.

Сайт INSDC стал источником описания ключей, ниже приведено несколько примеров ключей: название, значение, пример в записи базы данных, etc.

Название ключа Описание ключа Пример записи (первая строка - ID)

rep_origin Origin of replication = точка начала репликации, фрагмент молекулы НК, с которого стартует репликация, собственно rep_origin 1..442
/note="oriV; conserved part of vegetative replication
origin including interons"

assembly_gap Расстояние между двумя компонентами сборки генома/транскриптома assembly_gap 4518..4662
/estimated_length=145
/gap_type="within scaffold"
/linkage_evidence="paired-ends"

stem_loop Шпилька = согнутый вдвое участок, сформированный из цепочки НК комплементарными основаниями, образовавшими связи(стебель), в котором так же присутствует участок - петля, где основания свободны, не сформировали пары. stem_loop 282323..282337
/note="similar to that found in the intergenic region
between bxlE and bxlR of S. lividans, also found at the 5'
end of xylanase genes (xln) in various Streptomycetes;
possibly involved in regulation"

misc_feature Смыслово обособленный участок, который может представлять интерес для изучения, но не может быть описан каким-то другим ключом, так как является новым или просто редко встречается. Этот ключ не используется, если нужно всего-лишь отметить участок, чтобы прокомментировать его или использовать в каком-то другом месте описания misc_feature complement(281255..281971)
/gene="SCO0289"
/gene_synonym="SCF85.17c"
/note="Pfam match to entry PF00532 Peripla_BP_like,
Periplasmic binding proteins and LacI family., score
92.80, E-value 6.8e-24"

misc_recomb Сайт любого обобщённого, специфичного для сайта или реплицирующего события рекомбинации, где случилась поломка и восстановление дуплекса ДНК, что не может быть описана другими ключами рекомбинации или квалификаторами source key (пишутся через "/" в графе после ключа, как то, например, "/proviral") FT misc_recomb (561)..(566)
FT /note='HindIII site'
FT misc_recomb (573)..(578)
FT /note='AvaI site'
FT misc_recomb (586)..(591)
FT /note='EcoRI site'
FT misc_recomb (593)..(598)
FT /note='BamHI site'
FT misc_recomb (625)..(630)
FT /note='ClaI site'
FT misc_recomb (629)..(634)
FT /note='ClaI site'
FT misc_recomb (1156)..(1161)
FT /note='ApaLI site'
FT misc_recomb (2128)..(2133)
FT /note='PstI site'
FT misc_recomb (2204)..(2209)
FT /note='NcoI site'
FT misc_recomb (2284)..(2289)
FT /note='AvaI site'
FT misc_recomb (2294)..(2299)
FT /note='AvaI, SmaI, and XmaI site' FT
misc_recomb (2551)..(2556)
FT /note='ApaLI site'.
(https://www.ncbi.nlm.nih.gov/nuccore/DD212689.1)

mobile_element Участок генома, содержащий мобильные элементы = последовательности нк, которые могут перемещаться внутри генома mobile_element 875..82523
/mobile_element_type="other:integrative and conjugative
element ICESsuJH1301"

(https://www.ncbi.nlm.nih.gov/nuccore/KX077887.1)

prim_transcript Первичный(изначальный, непроцессированный) транскрипт, может включать нкРНК, рРНК, тРНК, 5'-нетранслируемую область (5'UTR), кодирующие последовательности (CDS, экзон), интервенционные последовательности (интрон) и 3 'нетранслируемую область (3'UTR); prim_transcript <1..>937
/gene="mad2"

(https://www.ncbi.nlm.nih.gov/nuccore/U72150.2)

STS Sequence tagged site = сайт с меткой последовательности; короткая однократная последовательность ДНК, характеризует своеобразный ориентир в геноме, может быть обнаружена с помощью ПЦР; область генома может быть отображена путем определения порядка серии STS; STS 895..1800
/gene="Porcn"
/gene_synonym="2410004O13Rik; AW045557; DXHXS7465e; Mg61;
mMg61; Mporc; porc; Ppn"
/standard_name="Porcn"
/db_xref="UniSTS:545975"

(https://www.ncbi.nlm.nih.gov/nuccore/NM_145908.4)

tmRNA Транспортная-матричная РНК (transfer messenger), сначала действует как тРНК, а затем как мРНК, которая кодирует пептидную метку. Рибосома транслирует эту область мРНК с тмРНК и прикрепляет закодированную метку к С-концу незавершенного белка, в то время как эта метка, нацелена на белок для уничтожения или протеолиза tmRNA 43155..43509
/gene="ssrA"
/locus_tag="COF54_RS14025"
/old_locus_tag="COF54_14025"
/product="transfer-messenger RNA"
/inference="COORDINATES: nucleotide
motif:Rfam:12.0:RF00023"
/inference="COORDINATES: profile:INFERNAL:1.1.1"
/note="Derived by automated computational analysis using
gene prediction method: cmsearch."
/db_xref="RFAM:RF00023"

(https://www.ncbi.nlm.nih.gov/nuccore/NZ_NUSF01000047.1)

unsure Небольшая область последовательности оснований, как правило, 10 или менее длиной, которая не может быть уверенно идентифицирована. Такой регион может содержат известные основания(А, T, G или C) или смесь их с неизвестными ('N'). "Unsure" не используется при аннотировании зазоров в сборках генома. Для комментариев к зазорам в других последовательностях, а не в собранных(assembled) геномах, используется функция зазора(gap) unsure 6657..6670
/gene="Arid1b"
/gene_synonym="8030481M12; 9330189K18Rik; AI836955;
Ardi1b; B230217J03Rik; mKIAA1235"
/note="Sequence derived from one plasmid subclone."

(https://www.ncbi.nlm.nih.gov/nuccore/NM_001085355.1)

Состояние дел в одном из массовых геномных проектов:
'The Canadian Cattle Genome Project(CCGP)' - the part of 'The 1000 Bull Genomes Project'

The 1000 Bull Genomes Project - направлен на предоставление обширной базы данных, чтобы сделать возможным для исследовательского сообщества внос генетических вариаций для геномного прогнозирования и широкомасштабных исследований генома во всех породах крупного скота. .<\p>

The Canadian Cattle Genome Project(CCGP) - изначально часть более обширного проекта The 1000 Bull Genomes Project, который был направлен на предоставление обширной базы данных, чтобы сделать возможным для исследовательского сообщества внос генетических вариаций для геномного прогнозирования и широкомасштабных исследований генома во всех породах крупного скота. Главная цель, таким образом, разработка ресурса, позволяющего партнёрам проекта вводить полную последовательность геномов в быков и коров, которые были ранее генотипированы с помощью SNP-массивов. Это может быть использовано, например, для повышения точности геномного предсказания, а так же в более общих исследованиях генома, заинтересованных в идентификации различного рода мутаций

Проекты сотрудничали, часть геномов из поставленной цели проекту 1000Bulls предоставил CCGP, получив доступ к остальным, таким образом проекты разделили цели. Однако, самостоятельно CCGP отмечает, что все последовательности и данные генотипов будут использоваться для разработки усовершенствованнных инструментов рассчета условно-вычисленных генотипов. Эти генотипы будут устанавливать эталон для селекционеров породистых и помесных животных. Так же будут осуществляться методы отбора животных по генотипу с использованием условно-исчисленной 'высокой плотности' генотипов.

Ведущий исследователь проеута - доктор Пол Стотхард, из университета Альберты. Проект запущен в 2012, изначально планировался как трёхлетний, на официальной странице отмечен последний год работы - 2014.
315 геномов животных были донированы The 1000 Bull Genomes Project. В статье от 21 мая 2015 года(самой поздней) указано, что к этому моменту отсеквенировано 379 животных. Дальнейших обновлений не наблюдалось.

Изначальные планы проекта:

Рассмотреть в исследовании 7 чистокровных популяций быков
Отсеквинировать примерно 30 индвидов от каждой породы
Завершить генотипирование высокой плотности(680K или 770K) над ~480 особями крупного рогатого скот
(+50K генотипирование примерно на 500 голов крупного рогатого скота в каждой популяции в зависимости от стратегического значения проекта).
При необходимости, по усмотрению исследователей проекта, генотипировать дополнительных индивидуумов (например, RFI-тестируемых животных)

Отдельно хотелось бы сказать про количество отсеквенированных организмов:
Одна популяция животных в исследовании - одна порода, то есть всего быков: 7*30+дополнительные быки, включённые по тем или иным причинам. Но в Приложении 1 к статье указаны все породы рассмотренных по итогам исследования быков, и их общее число - 14, если не считать помесных животных. Отсюда и число 379.

Таким образом, число секвенированных единиц: 379 - CCGP (315 которых это часть 1147 от "1000 Bull...". Однако, важно понимать, что даже выполнив цель исследования, без партнёров секвенировали они сами далеко не 1147 геномов. Достоверно известно о 234 геномах в первой фазе проекта, после которой, видимо, они стали делиться информацией, и в работе поучаствовали не только CCGP.

Если говорить о 1000 Bull Genomes - планировалось минимум отсеквенировать 1000 геномов, как ясно из названия.
Участвовали в проекте: Biosciences Research Division, Department of Environment and Primary Industries, Bundoora, Victoria, Australia.
Steering committee ? Ruedi Fries (Technische Universitat Munchen, Germany) ? Mogens Lund/Bernt Guldbrandtsent (Aarhus University, Denmark) ? Didier Boichard (INRA, France) ? Paul Stothard (University of Alberta, Canada) ? Roel Veerkamp (Wageningen UR, Netherlands) ? Ben Hayes/Mike Goddard (DFL) ? Curt Van Tassell (United States Department of Agriculture)

P.S. В статье от 'The 1000 Bulls genome' указано, что они идентифицировали 129 предковых форм, 43 предковые формы и 15 предковых форм для популяций Хольштейн, Флеккиевой популяции и популяции из Джерси - то есть было рассмотрено минимум три породы.

Источники:

Митохондриальные геномы Trichoplax adhaerens

Для выполнения данного задания был выбран единственный представитель таксона Placozoa - Трихоплакс.

Рисунок 1. Не больно-то презентабельный вид нашего объекта сверху

Все митохондриальные гены белков представлены в таблице по ссылке.

Сводная таблице по размерам геномов - справочная информация

Таксон Размер генома

Вироиды Наименьший - 220 bp, колеблется в среднем от 350 до ~450 bp. Наибольший отмеченный - 467 bp.

Вирусы, бактериофаги От нескольких тысяч (цирковирус имеет самый маленький на данный момент геном 2000 bp) до 1200 тысяч bp (у мимивирусов), отмечено лишь до 500 тыс bp у бактериофагов.
Типичный = 10*4

Бактерии, археи От 5*10^5 (у облигатных паразитов) до 10^7.
Типичный размер - ~2*10^6, по крайней мере такого порядка, за точную цифру не поручусь.
Имеют, в среднем, около 400 генов.

Эукариоты От 8.8*10^6 до 7*10^11 bp; гены: от 3000 до 150000 у млекопитающих.
Типичный - 10^9.

Банки нуклеотидных последовательностей

Превью:

Характеристика качества сборки генома эукариотического организма

Ключи и их описания.

Состояние дел в одном из массовых геномных проектов:
'The Canadian Cattle Genome Project(CCGP)' - the part of 'The 1000 Bull Genomes Project'

Митохондриальные геномы Trichoplax adhaerens

Сводная таблице по размерам геномов - справочная информация

Вернуться назад

На главную страницу

Количество проектов	11
Выбранный проект	PRJEB11773
Количество образцов	13
Выбранный образец	Biosample SAMEA3663800
Имя сэмпла(Sample name)	Triticum_aestivum_CS42_TGAC_v1
SRA	ERS970949 ( assembly for Chinese spring)
Технология секвенирования	whole genome shotgun sequencing
Покрытие	40х
Число контигов	1743969
Число скэффолдов	735943
N50	21299
L50	169174
Самый длинный контиг	Contig_1(длина - 508,392)
Самый короткий контиг	Contig_735943(длина - 501)
Адрес таблицы контигов html	https://www.ncbi.nlm.nih.gov/Traces/wgs/?val=FAOM01&display=contigs&page=1
Ссылка на tsv-таблицу контигов	FAOM01_contigs.tsv

Название ключа	Описание ключа	Пример записи (первая строка - ID)
rep_origin	Origin of replication = точка начала репликации, фрагмент молекулы НК, с которого стартует репликация, собственно	rep_origin 1..442 /note="oriV; conserved part of vegetative replication origin including interons"
assembly_gap	Расстояние между двумя компонентами сборки генома/транскриптома	assembly_gap 4518..4662 /estimated_length=145 /gap_type="within scaffold" /linkage_evidence="paired-ends"
stem_loop	Шпилька = согнутый вдвое участок, сформированный из цепочки НК комплементарными основаниями, образовавшими связи(стебель), в котором так же присутствует участок - петля, где основания свободны, не сформировали пары.	stem_loop 282323..282337 /note="similar to that found in the intergenic region between bxlE and bxlR of S. lividans, also found at the 5' end of xylanase genes (xln) in various Streptomycetes; possibly involved in regulation"
misc_feature	Смыслово обособленный участок, который может представлять интерес для изучения, но не может быть описан каким-то другим ключом, так как является новым или просто редко встречается. Этот ключ не используется, если нужно всего-лишь отметить участок, чтобы прокомментировать его или использовать в каком-то другом месте описания	misc_feature complement(281255..281971) /gene="SCO0289" /gene_synonym="SCF85.17c" /note="Pfam match to entry PF00532 Peripla_BP_like, Periplasmic binding proteins and LacI family., score 92.80, E-value 6.8e-24"
misc_recomb	Сайт любого обобщённого, специфичного для сайта или реплицирующего события рекомбинации, где случилась поломка и восстановление дуплекса ДНК, что не может быть описана другими ключами рекомбинации или квалификаторами source key (пишутся через "/" в графе после ключа, как то, например, "/proviral")	FT misc_recomb (561)..(566) FT /note='HindIII site' FT misc_recomb (573)..(578) FT /note='AvaI site' FT misc_recomb (586)..(591) FT /note='EcoRI site' FT misc_recomb (593)..(598) FT /note='BamHI site' FT misc_recomb (625)..(630) FT /note='ClaI site' FT misc_recomb (629)..(634) FT /note='ClaI site' FT misc_recomb (1156)..(1161) FT /note='ApaLI site' FT misc_recomb (2128)..(2133) FT /note='PstI site' FT misc_recomb (2204)..(2209) FT /note='NcoI site' FT misc_recomb (2284)..(2289) FT /note='AvaI site' FT misc_recomb (2294)..(2299) FT /note='AvaI, SmaI, and XmaI site' FT misc_recomb (2551)..(2556) FT /note='ApaLI site'. (https://www.ncbi.nlm.nih.gov/nuccore/DD212689.1)
mobile_element	Участок генома, содержащий мобильные элементы = последовательности нк, которые могут перемещаться внутри генома	mobile_element 875..82523 /mobile_element_type="other:integrative and conjugative element ICESsuJH1301" (https://www.ncbi.nlm.nih.gov/nuccore/KX077887.1)
prim_transcript	Первичный(изначальный, непроцессированный) транскрипт, может включать нкРНК, рРНК, тРНК, 5'-нетранслируемую область (5'UTR), кодирующие последовательности (CDS, экзон), интервенционные последовательности (интрон) и 3 'нетранслируемую область (3'UTR);	prim_transcript <1..>937 /gene="mad2" (https://www.ncbi.nlm.nih.gov/nuccore/U72150.2)
STS	Sequence tagged site = сайт с меткой последовательности; короткая однократная последовательность ДНК, характеризует своеобразный ориентир в геноме, может быть обнаружена с помощью ПЦР; область генома может быть отображена путем определения порядка серии STS;	STS 895..1800 /gene="Porcn" /gene_synonym="2410004O13Rik; AW045557; DXHXS7465e; Mg61; mMg61; Mporc; porc; Ppn" /standard_name="Porcn" /db_xref="UniSTS:545975" (https://www.ncbi.nlm.nih.gov/nuccore/NM_145908.4)
tmRNA	Транспортная-матричная РНК (transfer messenger), сначала действует как тРНК, а затем как мРНК, которая кодирует пептидную метку. Рибосома транслирует эту область мРНК с тмРНК и прикрепляет закодированную метку к С-концу незавершенного белка, в то время как эта метка, нацелена на белок для уничтожения или протеолиза	tmRNA 43155..43509 /gene="ssrA" /locus_tag="COF54_RS14025" /old_locus_tag="COF54_14025" /product="transfer-messenger RNA" /inference="COORDINATES: nucleotide motif:Rfam:12.0:RF00023" /inference="COORDINATES: profile:INFERNAL:1.1.1" /note="Derived by automated computational analysis using gene prediction method: cmsearch." /db_xref="RFAM:RF00023" (https://www.ncbi.nlm.nih.gov/nuccore/NZ_NUSF01000047.1)
unsure	Небольшая область последовательности оснований, как правило, 10 или менее длиной, которая не может быть уверенно идентифицирована. Такой регион может содержат известные основания(А, T, G или C) или смесь их с неизвестными ('N'). "Unsure" не используется при аннотировании зазоров в сборках генома. Для комментариев к зазорам в других последовательностях, а не в собранных(assembled) геномах, используется функция зазора(gap)	unsure 6657..6670 /gene="Arid1b" /gene_synonym="8030481M12; 9330189K18Rik; AI836955; Ardi1b; B230217J03Rik; mKIAA1235" /note="Sequence derived from one plasmid subclone." (https://www.ncbi.nlm.nih.gov/nuccore/NM_001085355.1)

Таксон	Размер генома
Вироиды	Наименьший - 220 bp, колеблется в среднем от 350 до ~450 bp. Наибольший отмеченный - 467 bp.
Вирусы, бактериофаги	От нескольких тысяч (цирковирус имеет самый маленький на данный момент геном 2000 bp) до 1200 тысяч bp (у мимивирусов), отмечено лишь до 500 тыс bp у бактериофагов. Типичный = 10*4
Бактерии, археи	От 510^5 (у облигатных паразитов) до 10^7. Типичный размер - ~210^6, по крайней мере такого порядка, за точную цифру не поручусь. Имеют, в среднем, около 400 генов.
Эукариоты	От 8.810^6 до 710^11 bp; гены: от 3000 до 150000 у млекопитающих. Типичный - 10^9.

Банки нуклеотидных последовательностей

Превью:

Характеристика качества сборки генома эукариотического организма

Ключи и их описания.

Состояние дел в одном из массовых геномных проектов: 'The Canadian Cattle Genome Project(CCGP)' - the part of 'The 1000 Bull Genomes Project'

Митохондриальные геномы Trichoplax adhaerens

Сводная таблице по размерам геномов - справочная информация

Вернуться назад

На главную страницу

Состояние дел в одном из массовых геномных проектов:
'The Canadian Cattle Genome Project(CCGP)' - the part of 'The 1000 Bull Genomes Project'