INSDC Host Organism Sequences

Données sous forme de fichier DwC-A (zip)	télécharger 1 426 130 enregistrements dans Anglais (74 MB) - Fréquence de mise à jour: inconnue
Métadonnées sous forme de fichier EML	télécharger dans Anglais (6 KB)
Métadonnées sous forme de fichier RTF	télécharger dans Anglais (7 KB)

Description

This dataset contains INSDC sequences associated with host organisms. The dataset is prepared periodically using the public ENA API (https://www.ebi.ac.uk/ena/portal/api/) using the methods described below.

EMBL-EBI also publishes other records in separate datasets (https://www.gbif.org/publisher/ada9d123-ddb4-467d-8891-806ea8d94230).

The data was then processed as follows:

1. Human sequences were excluded.

2. For non-CONTIG records, the sample accession number (when available) along with the scientific name were used to identify sequence records corresponding to the same individuals (or group of organism of the same species in the same sample). Only one record was kept for each scientific name/sample accession number.

3. Contigs and whole genome shotgun (WGS) records were added individually.

4. The records that were missing some information were excluded. Only records associated with a specimen voucher or records containing both a location AND a date were kept.

5. The records associated with the same vouchers are aggregated together.

6. A lot of records left corresponded to individual sequences or reads corresponding to the same organisms. In practise, these were "duplicate" occurrence records that weren't filtered out in STEP 2 because the sample accession sample was missing. To identify those potential duplicates, we grouped all the remaining records by `scientific_name`, `collection_date`, `location`, `country`, `identified_by`, `collected_by` and `sample_accession` (when available). Then we excluded the groups that contained more than 50 records. The rationale behind the choice of threshold is explained here: https://github.com/gbif/embl-adapter/issues/10#issuecomment-855757978

7. To improve the matching of the EBI scientific name to the GBIF backbone taxonomy, we incorporated the ENA taxonomic information. The kingdom, Phylum, Class, Order, Family, and genus were obtained from the ENA taxonomy checklist available here: http://ftp.ebi.ac.uk/pub/databases/ena/taxonomy/sdwca.zip

More information available here: https://github.com/gbif/embl-adapter#readme

You can find the mapping used to format the EMBL data to Darwin Core Archive here: https://github.com/gbif/embl-adapter/blob/master/DATAMAPPING.md

Enregistrements de données

Les données de cette ressource occurrence ont été publiées sous forme d'une Archive Darwin Core (Darwin Core Archive ou DwC-A), le format standard pour partager des données de biodiversité en tant qu'ensemble d'un ou plusieurs tableurs de données. Le tableur de données du cœur de standard (core) contient 1 340 198 enregistrements.

Cet IPT archive les données et sert donc de dépôt de données. Les données et métadonnées de la ressource sont disponibles pour téléchargement dans la section téléchargements. Le tableau des versions liste les autres versions de chaque ressource rendues disponibles de façon publique et permet de tracer les modifications apportées à la ressource au fil du temps.

Versions

Le tableau ci-dessous n'affiche que les versions publiées de la ressource accessibles publiquement.

Droits

Les chercheurs doivent respecter la déclaration de droits suivante:

L’éditeur et détenteur des droits de cette ressource est European Nucleotide Archive (EMBL-EBI). Ce travail est sous licence Creative Commons Attribution (CC-BY) 4.0.

Enregistrement GBIF

Cette ressource a été enregistrée sur le portail GBIF, et possède l'UUID GBIF suivante : 393b8c26-e4e0-4dd0-a218-93fc074ebf4e. European Nucleotide Archive (EMBL-EBI) publie cette ressource, et est enregistré dans le GBIF comme éditeur de données avec l'approbation du National Biodiversity Network.

Mots-clé

Metadata

Contacts

European Bioinformatics Institute (EMBL-EBI)

Créateur ●
Personne De Contact

datasubs@ebi.ac.uk

http://www.ebi.ac.uk

GBIF Helpdesk

Fournisseur Des Métadonnées

helpdesk@gbif.org

Couverture géographique

Worldwide

Enveloppe géographique	Sud Ouest [-90, -180], Nord Est [90, 180]

Métadonnées additionnelles

Identifiants alternatifs	393b8c26-e4e0-4dd0-a218-93fc074ebf4e
	https://cloud.gbif.org/eca/resource?r=insdc-host-organism-sequences