Описание
This dataset contains INSDC sequences associated with host organisms. The dataset is prepared periodically using the public ENA API (https://www.ebi.ac.uk/ena/portal/api/) using the methods described below.
EMBL-EBI also publishes other records in separate datasets (https://www.gbif.org/publisher/ada9d123-ddb4-467d-8891-806ea8d94230).
The data was then processed as follows:
1. Human sequences were excluded.
2. For non-CONTIG records, the sample accession number (when available) along with the scientific name were used to identify sequence records corresponding to the same individuals (or group of organism of the same species in the same sample). Only one record was kept for each scientific name/sample accession number.
3. Contigs and whole genome shotgun (WGS) records were added individually.
4. The records that were missing some information were excluded. Only records associated with a specimen voucher or records containing both a location AND a date were kept.
5. The records associated with the same vouchers are aggregated together.
6. A lot of records left corresponded to individual sequences or reads corresponding to the same organisms. In practise, these were "duplicate" occurrence records that weren't filtered out in STEP 2 because the sample accession sample was missing. To identify those potential duplicates, we grouped all the remaining records by `scientific_name`, `collection_date`, `location`, `country`, `identified_by`, `collected_by` and `sample_accession` (when available). Then we excluded the groups that contained more than 50 records. The rationale behind the choice of threshold is explained here: https://github.com/gbif/embl-adapter/issues/10#issuecomment-855757978
7. To improve the matching of the EBI scientific name to the GBIF backbone taxonomy, we incorporated the ENA taxonomic information. The kingdom, Phylum, Class, Order, Family, and genus were obtained from the ENA taxonomy checklist available here: http://ftp.ebi.ac.uk/pub/databases/ena/taxonomy/sdwca.zip
More information available here: https://github.com/gbif/embl-adapter#readme
You can find the mapping used to format the EMBL data to Darwin Core Archive here: https://github.com/gbif/embl-adapter/blob/master/DATAMAPPING.md
Записи данных
Данные этого occurrence ресурса были опубликованы в виде Darwin Core Archive (DwC-A), который является стандартным форматом для обмена данными о биоразнообразии в виде набора из одной или нескольких таблиц. Основная таблица данных содержит 1 426 130 записей.
Данный экземпляр IPT архивирует данные и таким образом служит хранилищем данных. Данные и метаданные ресурсов доступны для скачивания в разделе Загрузки. В таблице версий перечислены другие версии ресурса, которые были доступны публично, что позволяет отслеживать изменения, внесенные в ресурс с течением времени.
Версии
В таблице ниже указаны только опубликованные версии ресурса, которые доступны для свободного скачивания.
Права
Исследователи должны соблюдать следующие права:
Публикующей организацией и владельцем прав на данную работу является European Nucleotide Archive (EMBL-EBI). Эта работа находится под лицензией Creative Commons Attribution (CC-BY 4.0).
Регистрация в GBIF
Этот ресурс был зарегистрирован в GBIF, ему был присвоен следующий UUID: 393b8c26-e4e0-4dd0-a218-93fc074ebf4e. European Nucleotide Archive (EMBL-EBI) отвечает за публикацию этого ресурса, и зарегистрирован в GBIF как издатель данных при оподдержке National Biodiversity Network.
Ключевые слова
Metadata
Контакты
- Metadata Provider
Географический охват
Worldwide
Ограничивающие координаты | Юг Запад [-90, -180], Север Восток [90, 180] |
---|
Дополнительные метаданные
Альтернативные идентификаторы | 393b8c26-e4e0-4dd0-a218-93fc074ebf4e |
---|---|
https://cloud.gbif.org/eca/resource?r=insdc-host-organism-sequences |