INSDC Host Organism Sequences

Registro biológico
Última versión publicado por European Nucleotide Archive (EMBL-EBI) el abr. 26, 2025 European Nucleotide Archive (EMBL-EBI)
Fecha de publicación:
26 de abril de 2025
Licencia:
CC-BY 4.0

Descargue la última versión de los datos como un Archivo Darwin Core (DwC-A) o los metadatos como EML o RTF:

Datos como un archivo DwC-A descargar 1.426.130 registros en Inglés (74 MB) - Frecuencia de actualización: desconocido
Metadatos como un archivo EML descargar en Inglés (6 KB)
Metadatos como un archivo RTF descargar en Inglés (7 KB)

Descripción

This dataset contains INSDC sequences associated with host organisms. The dataset is prepared periodically using the public ENA API (https://www.ebi.ac.uk/ena/portal/api/) using the methods described below.

EMBL-EBI also publishes other records in separate datasets (https://www.gbif.org/publisher/ada9d123-ddb4-467d-8891-806ea8d94230).

The data was then processed as follows:

1. Human sequences were excluded.

2. For non-CONTIG records, the sample accession number (when available) along with the scientific name were used to identify sequence records corresponding to the same individuals (or group of organism of the same species in the same sample). Only one record was kept for each scientific name/sample accession number.

3. Contigs and whole genome shotgun (WGS) records were added individually.

4. The records that were missing some information were excluded. Only records associated with a specimen voucher or records containing both a location AND a date were kept.

5. The records associated with the same vouchers are aggregated together.

6. A lot of records left corresponded to individual sequences or reads corresponding to the same organisms. In practise, these were "duplicate" occurrence records that weren't filtered out in STEP 2 because the sample accession sample was missing. To identify those potential duplicates, we grouped all the remaining records by `scientific_name`, `collection_date`, `location`, `country`, `identified_by`, `collected_by` and `sample_accession` (when available). Then we excluded the groups that contained more than 50 records. The rationale behind the choice of threshold is explained here: https://github.com/gbif/embl-adapter/issues/10#issuecomment-855757978

7. To improve the matching of the EBI scientific name to the GBIF backbone taxonomy, we incorporated the ENA taxonomic information. The kingdom, Phylum, Class, Order, Family, and genus were obtained from the ENA taxonomy checklist available here: http://ftp.ebi.ac.uk/pub/databases/ena/taxonomy/sdwca.zip

More information available here: https://github.com/gbif/embl-adapter#readme

You can find the mapping used to format the EMBL data to Darwin Core Archive here: https://github.com/gbif/embl-adapter/blob/master/DATAMAPPING.md

Registros

Los datos en este recurso de registros biológicos han sido publicados como Archivo Darwin Core(DwC-A), el cual es un formato estándar para compartir datos de biodiversidad como un conjunto de una o más tablas de datos. La tabla de datos del core contiene 1.426.130 registros.

Este IPT archiva los datos y, por lo tanto, sirve como repositorio de datos. Los datos y los metadatos del recurso están disponibles para su descarga en la sección descargas. La tabla versiones enumera otras versiones del recurso que se han puesto a disposición del público y permite seguir los cambios realizados en el recurso a lo largo del tiempo.

Versiones

La siguiente tabla muestra sólo las versiones publicadas del recurso que son de acceso público.

Derechos

Los usuarios deben respetar los siguientes derechos de uso:

El publicador y propietario de los derechos de este trabajo es European Nucleotide Archive (EMBL-EBI). Esta obra está bajo una licencia Creative Commons de Atribución/Reconocimiento (CC-BY 4.0).

Registro GBIF

Este recurso ha sido registrado en GBIF con el siguiente UUID: 393b8c26-e4e0-4dd0-a218-93fc074ebf4e.  European Nucleotide Archive (EMBL-EBI) publica este recurso y está registrado en GBIF como un publicador de datos avalado por National Biodiversity Network.

Palabras clave

Metadata

Contactos

European Bioinformatics Institute (EMBL-EBI)
  • Originador
  • Punto De Contacto
GBIF Helpdesk
  • Proveedor De Los Metadatos

Cobertura geográfica

Worldwide

Coordenadas límite Latitud Mínima Longitud Mínima [-90, -180], Latitud Máxima Longitud Máxima [90, 180]

Metadatos adicionales

Identificadores alternativos 393b8c26-e4e0-4dd0-a218-93fc074ebf4e
https://cloud.gbif.org/eca/resource?r=insdc-host-organism-sequences