Información

¿Cómo evoluciona el contenido de GC?

¿Cómo evoluciona el contenido de GC?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Fondo

El contenido de GC se refiere a la frecuencia de pares de bases que son C o G en el genoma, o en otras palabras, el número de pares de bases de GC dividido por la suma del número de pares de bases de GC más el número de pares de bases de AT.

$$ GCcontent = frac {N_ {GC}} {N_ {AT} + N_ {GC}} $$

Pregunta

¿Cómo evoluciona el contenido de GC y por qué difiere el contenido de GC entre poblaciones / especies / linajes? ¿Evoluciona solo bajo la deriva genética? ¿Bajo selección? Intuitivamente, diría que la proporción de las probabilidades de mutar de A o T a G o C debería ser un factor importante que impulse la evolución del contenido de GC. ¿Lo hace? ¿Influye la tasa de mutación general en el contenido de GC? ¿Qué otros rasgos / fuerzas influyen en la evolución del contenido de GC?


Creo que el trabajo clave aquí es "evolucionar". Las proporciones generales de GC / AT cambian por mutaciones, cuya tasa es constante. La probabilidad de que, dado un evento de mutación, una base sea sustituida por otra, se ha modelado de varias formas en las que las probabilidades de diferentes mutaciones pueden ser las mismas o no.

En general, el contenido de GC tenderá a acercarse al 50%. Lo que hace que los genomas ricos en GC se vuelvan ricos en GC (60-70%) es que las mutaciones en pares de bases de GC tienen ventajas selectivas en regiones o en el genoma en general que hacer que sean retenidos. La tasa de mutación puede no ser diferente (o incluso menor) en los organismos ricos en GC (muchos de ellos se encuentran a gran profundidad o bajo el agua. Los genomas ricos en GC se producen porque las mutaciones AT-> GC transmiten una ventaja y se mantienen.

Las razones por las que el contenido de GC se aleja del 50% se dividen en dos categorías que llamaré entrópicas y selectivas.

Por entrópico Me refiero específicamente a las secuencias de codificación de genes y otras características, como los sitios de unión en el ADN u otras características, como los centrómeros, que harán que la proporción general varíe de 1 porque la secuencia está limitada por la información que contiene. Mientras que las regiones de codificación tienen una proporción superior a 1, el contenido de GC tiende a rondar el 54%. Los eucariotas tienen islas de GC, etc., pero esto tampoco cambia en general el contenido de GC.

Así que los genomas ricos en genes y las características funcionales típicas del genoma no explican realmente algunos de los contenidos de GC espectacularmente altos encontrados; hasta el rango del 70%. Si bien el enlace anterior analiza el sesgo de GC en las regiones de codificación, es un hecho que cualquier parte del genoma que sea simplemente un espaciador entre elementos con funciones específicas variará libremente a GC si es útil.

Selectivo Los factores para un alto contenido de GC incluyen, por ejemplo, entornos de alta presión y temperatura, que suelen tener un fuerte sesgo hacia un alto contenido de GC mediante este mecanismo. Puede imaginarse cómo funciona esto: los genomas con alto contenido de GC son termodinámicamente más estables y pueden sobrevivir más fácilmente a las colisiones moleculares adicionales de mayor energía de esos entornos.

Los genomas ricos en GC no son simples adaptaciones para vivir. Todos los genes para los procesos orientados al ADN, como la transcripción, el empaquetamiento de cromosomas, la ADN polimerasa, tienen que ajustarse mucho. A medida que el organismo se adapta a temperaturas más altas o presiones más altas, cada proteína individual producida también tendrá que cambiar para ser estable y funcionar en las nuevas condiciones. Como tal, estos cambios ocurren solo durante largos períodos evolutivos. Esta es probablemente una buena parte de la razón por la que los nichos de arqueas no han sido reemplazados por eubacterias en los más de mil millones de años desde que la vida ha estado en la Tierra.


Contenido de GC

Contenido de GC (o contenido de guanina-citosina), en biología molecular, es el porcentaje de bases nitrogenadas en una molécula de ADN que son guanina o citosina (de una posibilidad de cuatro diferentes, que también incluyen adenina y timina). [1] Esto puede referirse a un fragmento específico de ADN o ARN, o al de todo el genoma. Cuando se refiere a un fragmento del material genético, puede denotar el contenido de GC de parte de un gen (dominio), gen único, grupo de genes (o agrupaciones de genes) o incluso una región no codificante. G (guanina) y C (citosina) experimentan un enlace de hidrógeno específico, mientras que A (adenina) se enlaza específicamente con T (timina). El par GC está unido por tres enlaces de hidrógeno y el AT emparejado por dos enlaces de hidrógeno, por lo que los pares GC son más termoestables en comparación con los pares AT. [2] A pesar de la mayor termoestabilidad conferida al material genético, se prevé que las células con alto ADN de GC se sometan a autólisis, reduciendo así la longitividad de la célula. per se. [3] Debido a la robustez de los materiales genéticos en los organismos con alto contenido de GC, se creía comúnmente que el contenido de GC desempeñaba un papel vital en las temperaturas de adaptación, una hipótesis que ha sido refutada recientemente. [4]

En los experimentos de PCR, el contenido de GC de los cebadores se usa para determinar su temperatura de hibridación con el ADN molde. Un nivel de contenido de GC más alto indica una temperatura de fusión más alta.

Conocimientos adicionales recomendados

El rango de pesaje seguro garantiza resultados precisos

Verificación diaria de equilibrio visual

¿Cómo comprobar rápidamente las pipetas?


Todos los códigos de clasificación de revistas científicas (ASJC)

  • APA
  • Autor
  • BIBTEX
  • Harvard
  • Estándar
  • RIS
  • Vancouver

Resultado de la investigación: Contribución a la revista ›Artículo› revisión por pares

T1: los patrones de evolución de la secuencia de intrones en Drosophila dependen de la longitud y el contenido de GC.

N2 - ANTECEDENTES: Los intrones comprenden una gran fracción de los genomas eucariotas, aunque se sabe poco acerca de su importancia funcional. Se han asignado elementos reguladores a algunos intrones, aunque se cree que estos representan solo una pequeña fracción del ADN intrónico de todo el genoma. No han surgido patrones consistentes de estudios que hayan investigado niveles generales de restricción evolutiva en intrones. RESULTADOS: Examinamos la relación entre la longitud de los intrones y los niveles de restricción evolutiva mediante el análisis de la divergencia interespecífica en 225 fragmentos de intrones en Drosophila melanogaster y Drosophila simulans, muestreados a partir de una amplia distribución de longitudes de intrones. Documentamos una correlación fuertemente negativa entre la longitud del intrón y la divergencia. Curiosamente, también encontramos que la divergencia en los intrones se correlaciona negativamente con el contenido de GC. Sin embargo, esta relación no tiene en cuenta la correlación entre la longitud del intrón y la divergencia, y puede reflejar simplemente la variación local en las tasas de mutaciones o los sesgos. CONCLUSIÓN: Los intrones cortos constituyen solo una pequeña fracción del ADN intrónico total en el genoma. Nuestro hallazgo de que los intrones largos evolucionan más lentamente que la media implica que, si bien la mayoría de los intrones en el genoma de Drosophila pueden experimentar poca o ninguna restricción selectiva, es probable que la mayor parte del ADN intrónico en el genoma esté evolucionando bajo una restricción considerable. Nuestros resultados sugieren que los elementos funcionales pueden ser ubicuos dentro de intrones más largos y que estos intrones pueden tener un papel más general en la regulación de la expresión génica de lo que se pensaba anteriormente. Nuestro hallazgo de que el contenido de GC y la divergencia se correlacionan negativamente en los intrones tiene implicaciones importantes para la interpretación de la correlación entre la divergencia y los niveles de sesgo de codones observados en Drosophila.

AB - ANTECEDENTES: Los intrones comprenden una gran fracción de los genomas eucariotas, aunque se sabe poco acerca de su importancia funcional. Se han asignado elementos reguladores a algunos intrones, aunque se cree que estos representan solo una pequeña fracción del ADN intrónico de todo el genoma. No han surgido patrones consistentes de estudios que hayan investigado niveles generales de restricción evolutiva en intrones. RESULTADOS: Examinamos la relación entre la longitud de los intrones y los niveles de restricción evolutiva mediante el análisis de la divergencia interespecífica en 225 fragmentos de intrones en Drosophila melanogaster y Drosophila simulans, muestreados a partir de una amplia distribución de longitudes de intrones. Documentamos una correlación fuertemente negativa entre la longitud del intrón y la divergencia. Curiosamente, también encontramos que la divergencia en los intrones se correlaciona negativamente con el contenido de GC. Esta relación no tiene en cuenta la correlación entre la longitud del intrón y la divergencia, sin embargo, y puede simplemente reflejar la variación local en las tasas de mutaciones o sesgos. CONCLUSIÓN: Los intrones cortos constituyen solo una pequeña fracción del ADN intrónico total en el genoma. Nuestro hallazgo de que los intrones largos evolucionan más lentamente que el promedio implica que, mientras que la mayoría de los intrones en el genoma de Drosophila pueden experimentar poca o ninguna restricción selectiva, es probable que la mayor parte del ADN intrónico en el genoma esté evolucionando bajo una restricción considerable. Nuestros resultados sugieren que los elementos funcionales pueden ser ubicuos dentro de intrones más largos y que estos intrones pueden tener un papel más general en la regulación de la expresión génica de lo que se pensaba anteriormente. Nuestro hallazgo de que el contenido de GC y la divergencia se correlacionan negativamente en los intrones tiene implicaciones importantes para la interpretación de la correlación entre la divergencia y los niveles de sesgo de codones observados en Drosophila.


Resultados y discusión

Los niveles de divergencia se correlacionan con la longitud del intrón

Investigamos los niveles de divergencia en un total de 225 intrones (una mezcla de intrones cortos completos y varios cientos de fragmentos de pares de bases de intrones más largos) dispersos por el Drosophila genoma. La relación entre la longitud del intrón y la divergencia de nucleótidos para todos los intrones completos y los fragmentos de intrones estudiados se muestra en la Figura 1. Una correlación fuertemente negativa entre la longitud del intrón y la divergencia es evidente (coeficiente de correlación de Spearman R s= -0.388, PAG & lt 10 -4). También dividimos los datos en dos clases de tamaño según el tamaño medio del intrón de 86 pb en Drosophila [14] intrones pequeños (≤86 pb) e intrones grandes (& gt86 pb). La clase de intrón grande mostró divergencias significativamente más bajas que la clase de intrón pequeño (estadística de prueba de dos muestras de Wilcoxon W = 17079.5, PAG & lt 10 -4). La correlación entre la longitud del intrón y la divergencia es algo más débil, pero aún significativa dentro de la clase de intrones más larga (R s= -0.278, PAG = 0.006).

La relación entre la longitud del intrón y el nivel de divergencia entre D. melanogaster y D. simulanos para el conjunto de datos combinado de 225 intrones. Se encuentra una correlación significativamente negativa para todos los intrones (coeficiente de correlación de Spearman R s= -0.388, PAG & lt 10 -4), primeros intrones (R s= -0.451, PAG & lt 10 -4) y no primeros intrones (R s= -0.304, PAG & lt 10 -4).

Se ha observado que los intrones que albergan elementos reguladores tienden a ser los primeros intrones [6, 8], y que los primeros intrones tienden a ser más largos en Drosophila [17]. Por tanto, una relación entre el tamaño del intrón y la divergencia sólo podría esperarse para los primeros intrones [16]. De hecho, estudios previos no han podido encontrar evidencia de restricción fuera de los primeros intrones [16, 18]. En la Figura 1, mostramos que la fuerte correlación entre la divergencia y la longitud del intrón no es específica de los primeros intrones (primeros intrones R s= -0.451, PAG & lt 10 -4 no primeros intrones R s= -0.304, PAG & lt 10 -4). Las divergencias medias no fueron significativamente diferentes entre los primeros y no primeros intrones cuando se compararon dentro de las clases de tamaño corto y largo (Tabla 1). Estos resultados sugieren que los elementos reguladores pueden ser lo suficientemente comunes en todos los intrones más largos que la restricción es independiente de la posición de un intrón dentro de un gen.

Si bien esta es una fuerte evidencia de la restricción evolutiva de los intrones más largos, los intrones cortos no parecen evolucionar mucho más lentamente que los sitios sinónimos en Drosophila. Para ilustrar esto, la Figura 2 muestra estimaciones de divergencia promedio (con dos errores estándar) para sitios sinónimos de 102 regiones de codificación [19] en comparación con los de las clases de intrones de tamaño pequeño (≤86 pb) y grande (& gt86 pb). La divergencia promedio en sitios no sinónimos [19] también se muestra a modo de comparación. La divergencia del sitio sinónimo es significativamente mayor que los niveles de divergencia para intrones grandes (Wilcoxon dos muestras W = 7745.5, PAG & lt 10 -4) pero no intrones pequeños (Wilcoxon de dos muestras W = 15115.5, PAG = 0,617). Este hallazgo es consistente con las conclusiones de Halligan et al. [9] que los intrones y los sitios sinónimos evolucionan a ritmos similares, dado que su conjunto de datos contiene pocos intrones largos. La mitad de los intrones en el genoma tienen menos de 86 pares de bases de largo, pero estos comprenden sólo alrededor del 5% del ADN intrónico total en el genoma [14]. Por tanto, irónicamente, mientras que la mayoría de los intrones en el Drosophila El genoma puede estar evolucionando con poca o ninguna restricción selectiva, es probable que la mayor parte del ADN intrónico del genoma evolucione con una restricción considerable.

Divergencias medias para sitios no sinónimos, sitios sinónimos e intrones pequeños y grandes. Niveles medios de divergencia entre D. melanogaster y D. simulanos para sitios no sinónimos y sinónimos de datos de codificación, intrones ≤86 pb e intrones & gt86 pb. Las barras de error indican dos errores estándar. La divergencia del sitio sinónimo es significativamente mayor que la grande (estadística de prueba de dos muestras de Wilcoxon W = 7745.5, PAG & lt 10 -4) pero no pequeño (W = 15115.5, PAG = 0,6173) divergencias de intrones. La divergencia de intrones pequeños es significativamente mayor que la divergencia de intrones grandes (W = 17079.5, PAG & lt 10 -4).

Divergencia y composición de bases de intrones.

Los intrones son más ricos en AT que los sitios sinónimos en Drosophila [20] (Cuadro 1). ¿Podrían entonces los niveles más bajos de divergencia ser un artefacto del contenido de GC local? Existe una relación significativamente negativa entre la divergencia y el contenido de GC en el conjunto de datos de intrones (R s= -0.345, PAG & lt 10 -4) (Figura 3a), y una relación significativamente positiva entre la longitud del intrón y el contenido de GC (R s= 0.237, PAG & lt 10-3) (Figura 3b). El coeficiente de correlación parcial para la divergencia frente a la longitud, controlando el contenido de GC, es -0,132 (intervalo de confianza de arranque del 95%: -0,192 / -0,089). Las correlaciones parciales para la divergencia versus el contenido de GC (controlando la longitud) y el contenido de GC versus la longitud (controlando la divergencia) fueron -0.292 (-0.410 / -0.168) y 0.030 (-0.037 / 0.120), respectivamente. Estos resultados sugieren que la relación entre la longitud del intrón y la divergencia no es un efecto de confusión del contenido de GC, a pesar de la correlación negativa entre la divergencia y el contenido de GC.

La relación entre el contenido de GC del fragmento de intrón y la divergencia y la longitud. (a) La relación entre el contenido de GC de los fragmentos de intrones y la divergencia entre D. melanogaster y D. simulanos (Coeficiente de correlación de Spearman R s= -0.345, PAG & lt 10 -4). (B) La relación entre el contenido de GC de los fragmentos de intrones y la longitud del intrón (R s= 0.237, PAG & lt 10-3).

Similar al patrón que observamos en los intrones, una asociación negativa entre las tasas de sustitución de sitios sinónimos y el contenido de GC en la tercera posición de los codones se ha observado previamente en Drosophila [21] y en mamíferos [22]. Este patrón en sitios sinónimos se ha citado como evidencia de selección por sesgo de uso de codones, ya que los codones preferidos suelen ser ricos en GC [21, 23], sin embargo, la selección en el uso de codones obviamente no puede explicar el mismo patrón en intrones. La relación negativa entre la divergencia y el contenido de GC en los intrones podría reflejar una variación local en el alcance de las tasas de mutaciones o sesgos [22, 24], o los efectos de la conversión de genes sesgada que favorece a GC sobre AT, que imita el efecto de la selección a favor de Nucleótidos GC [25].

El posible papel del sesgo mutacional se puede examinar utilizando el siguiente método. Se deduce del modelo estándar de deriva y mutación reversible que, si AT muta a GC a una velocidad tu y GC muta a AT a una velocidad ku la frecuencia de equilibrio de GC para sitios neutros (sin tener en cuenta los sitios polimórficos) se aproxima por pag = 1/(1 + k), y la tasa de equilibrio de sustituciones es K = 2Reino Unido/(1+k) [26, 27]. Esto produce la relación K = 2tu(1 - pag), de modo que la tasa de equilibrio de sustitución está relacionada de forma negativa y lineal con el contenido de GC. Esta fórmula predice que la intersección (divergencia con contenido de GC cero) es igual al valor absoluto de la pendiente, por lo que esta hipótesis es comprobable. El coeficiente de regresión de divergencia en el contenido de GC en el conjunto de datos completo es -0,180 (-0,254 / -0,106), y la intersección correspondiente es 0,157 (0,115 / 0,163), que a primera vista es consistente con la hipótesis de que la variación en el nivel de el parámetro de sesgo mutacional, k, es suficiente para dar cuenta de la relación entre divergencia y contenido de CG.

Sin embargo, la relación entre divergencia y longitud hace que la prueba anterior sea problemática, en vista de la amplia variación en la longitud del intrón. Si solo se utilizan los 127 intrones cortos (longitud ≤ 86 pb), que son mucho más uniformes en longitud, la regresión de la divergencia en el contenido de GC casi no cambia en -0,116 (-0,207 / -0,023), y la intersección es 0,150 ( 0,142 / 0,162). Sin embargo, tenga en cuenta que existe una correlación parcial significativa de 0,166 (0,041 / 0,345) entre el contenido de GC y la longitud para intrones cortos, pero no para intrones largos, por lo que todavía existe una relación residual entre la longitud y el contenido de GC en intrones cortos. Si bien no podemos descartar la posibilidad de que la conversión de genes sesgada y / o la selección a favor de GC versus AT explique la relación entre el contenido de GC y la divergencia, nuestro análisis sugiere que la variación en el sesgo mutacional puede ser suficiente. Si este proceso también explica la relación entre la divergencia del sitio sinónimo y el contenido de GC, las pruebas de selección en el sesgo de codón se basan en correlaciones negativas entre el sesgo de codón y la divergencia (discutido recientemente por Bierne y Eyre-Walker [28] y Dunn et al. [29]) pierden su fuerza. Estos han sido criticados por otros motivos teóricos por Eyre-Walker y Bulmer [26].

La densidad de elementos funcionales en intrones.

Los análisis de correlación sugieren fuertemente que los intrones más largos muestran niveles más bajos de divergencia, y que esto no se debe simplemente a diferencias en la tasa de mutaciones relacionadas con el contenido de GC, aunque, por supuesto, no se pueden descartar otras fuentes de diferencias en la tasa de mutación. Entonces, ¿por qué los intrones más largos podrían estar sujetos a niveles más altos de restricción? Se sabe que los intrones contienen elementos reguladores (por ejemplo, ver [30, 31] y ver [32] para una revisión reciente de la literatura sobre mamíferos), por lo que es posible que los intrones más largos estén más restringidos porque contienen más de estos elementos. .

¿Los elementos reguladores putativos en intrones más largos son entidades discretas (como grupos de sitios de unión para factores de transcripción), o esta función reguladora es más difusa? Si los elementos reguladores intrónicos ocurren en grupos, rodeados por regiones no restringidas, podríamos esperar encontrar niveles más altos de divergencia en las regiones cortas de varios cientos de pares de bases de intrones muy largos (como los que se examinan aquí), en comparación con los intrones de tamaño intermedio. , siempre que tengan cantidades totales similares de secuencias reguladoras. La razón de esto es que, si los elementos reguladores restringidos se agrupan en una región, es poco probable que los fragmentos cortos de intrones muy largos coincidan por casualidad con un elemento funcional, mientras que las regiones de tamaño similar de intrones de longitud intermedia es más probable que coincidan. con tales elementos. Tal agrupación es posible, dado que los sitios de unión del factor de transcripción y los elementos reguladores pueden variar en tamaño desde unos pocos pares de bases hasta varios cientos de pares de bases (para ejemplos, ver [33-36]). Sin embargo, si la proporción de secuencia reguladora es similar en intrones largos e intermedios, no se espera ninguna diferencia en la divergencia media, pero el agrupamiento causaría una mayor varianza en la divergencia en intrones de longitud muy larga versus de longitud intermedia (después de eliminar la varianza de muestreo binomial). Sin embargo, si los elementos reguladores de los intrones están ampliamente dispersos, no hay razón para esperar mayores medias o variaciones de divergencia en los fragmentos de intrones muy largos. De hecho, la divergencia media para el pequeño número de fragmentos de intrones de intrones de más de 4.500 pb es 0,054 (SE = 0,004, n = 9). Esto es significativamente más pequeño que para la clase de intrón pequeño (≤86 pb) (divergencia media = 0.110, n = 127, Wilcoxon de dos muestras W = 252, PAG = 0,001) y marginalmente significativamente menor que para los intrones de tamaño intermedio (entre 87 pb y 4500 pb: divergencia media = 0,072, n = 89, W = 4494, PAG = 0,044). La desviación estándar no binomial en la divergencia se estima en 0,0056 para los intrones muy largos, en comparación con 0,023 para los 38 de tamaño intermedio para los que se utilizaron fragmentos al menos 20 pb más cortos que los intrones para estimar la divergencia (esto asegura que ambos las clases representan muestras en lugar de secuencias completas). Este es el patrón opuesto al esperado con un fuerte agrupamiento de secuencias reguladoras. Por lo tanto, los niveles de restricción y, por lo tanto, la densidad de elementos reguladores supuestamente funcionales, parecen ser relativamente uniformes en intrones más largos.

Una densidad uniforme de funciones reguladoras es inesperada si a menudo implican grupos de, por ejemplo, sitios de unión a factores de transcripción. Sin embargo, podría esperarse, por ejemplo, si las funciones reguladoras de los intrones implican a menudo la formación de estructuras secundarias complejas. Se está acumulando evidencia que sugiere que la secuencia y la longitud del intrón afectan la estructura secundaria del ARN mensajero precursor (pre-ARNm). Si esta estructura secundaria juega un papel regulador, es probable que se conserve. Varios estudios han encontrado evidencia de selección epistática en intrones para mantener la estructura secundaria del pre-ARNm [37-39], y también hay evidencia de un papel funcional de la estructura secundaria del ARN en el empalme [40, 41] y la expresión génica [42, 43]. ]. Por ejemplo, Chen y Stephan [44] encontraron que las mutaciones que alteran una estructura en horquilla en el intrón 1 de la D. melanogaster Adh gen reducir la eficiencia de empalme y disminuir la producción de la Adh proteína. Estos autores muestran que las mutaciones compensatorias que restauran la estructura secundaria dan como resultado un mutante indistinguible del tipo salvaje en la eficiencia de empalme y la producción de proteínas. Una estructura en horquilla en el segundo intrón de este gen también muestra una conservación estructural sorprendente en diez especies en tres subgéneros de Drosophila [45]. Nuestro hallazgo de que la densidad de secuencias restringidas no parece ser una función de la longitud del intrón (dentro de la clase de intrón largo) sugiere que la estructura secundaria del pre-mRNA puede ser un mecanismo más común que media la regulación génica que los elementos reguladores discretos como los potenciadores transcripcionales intrónicos .


Introducción

La genómica comparada es una clave fundamental para el funcionamiento interno de los genomas. La identificación de genes y otros elementos funcionales como las regiones reguladoras, así como la comprensión de su influencia en la aptitud de los organismos, se basan esencialmente en la detección de firmas de selección natural dentro de los genomas [1]. En ese sentido, diseñar un modelo de evolución de secuencia en ausencia de restricciones selectivas (un modelo neutral) es fundamental para la detección de secuencias funcionales. De hecho, para explicar las características de un segmento genómico dado, comparar el ajuste de un modelo neutral con el de un modelo que también invoca la selección (ya sea purificadora o positiva) es la forma operativa de inferir la restricción evolutiva y, por lo tanto, la función.

La composición de bases de las secuencias genómicas varía ampliamente, tanto entre especies como a lo largo de los cromosomas [2, 3]. Por ejemplo, el contenido de GC genómico de los organismos celulares oscila entre el 13% y aproximadamente el 75% [4, 5], con una gran heterogeneidad intragenómica. Estas variaciones a gran escala en la composición de las bases afectan a todas las partes de los genomas, las regiones intergénicas y los genes, incluidas las tres posiciones de los codones [6], y, por lo tanto, no pueden explicarse simplemente por restricciones selectivas en las proteínas codificadas. Determinar las causas subyacentes (selectivas o neutrales) de estas variaciones en el contenido de GC es un problema importante en genética: si son el resultado de la selección, implica que la composición de la base genómica per se Es un rasgo importante que contribuye a la aptitud de los organismos a la inversa, si estos "paisajes genómicos" están moldeados en gran medida por procesos moleculares no adaptativos, entonces caracterizar estos procesos es esencial para la detección confiable de la selección (ver, por ejemplo, [7]).

En los mamíferos, el análisis de los datos de polimorfismo y los patrones de sustitución a lo largo de los genomas demostró que la evolución del contenido de GC está impulsada por la recombinación, que tiende a aumentar la probabilidad de fijación de mutaciones AT → GC [8,9]. El impacto de la recombinación en la composición de bases en estos genomas se debe muy probablemente a un fenómeno conocido como conversión génica sesgada por GC (gBGC), que favorece a los nucleótidos G / C en sitios polimórficos en la conversión de intermedios de recombinación (ver revisión en [10 ]). Aunque gBGC como proceso no está relacionado con la selección natural, afecta la probabilidad de fijación de alelos en patrones similares a la selección [11]. Se ha demostrado que es un factor de confusión importante, que puede imitar algunas marcas de selección positiva [7,12] e interferir con la selección al promover activamente la fijación de alelos deletéreos [13,14]. [ 17-19].

En Bacteria and Archaea, se han propuesto varios factores ambientales que pueden afectar el contenido de GC genómico (como la disponibilidad de oxígeno o nitrógeno en el ambiente, la temperatura de crecimiento o la variedad de ambientes encontrados por un organismo, ver por ejemplo [20] y ref. en el mismo). Debido a que estos efectos son débiles y la naturaleza de las presiones selectivas sigue siendo esquiva, la principal fuerza que impulsa el contenido de GC genómico se ha considerado durante mucho tiempo como un sesgo mutacional [21]. Sin embargo, recientemente, dos análisis independientes han demostrado que en prácticamente todas las bacterias, independientemente de su contenido de GC genómico, hay un exceso de mutaciones G / C → A / T [22,23]. Esto sugiere que un proceso desconocido, selectivo o neutral, se opone a este sesgo mutacional universal al favorecer la fijación de alelos G / C. E. coli Los genomas habían sugerido un posible papel de gBGC, basado en el vínculo entre el contenido de GC, la recombinación y la organización del cromosoma en esta especie [24]. Sin embargo, Hildebrand et al. [23] observó que el exceso de mutaciones G / C → A / T todavía estaba presente después de eliminar conjuntos de datos con evidencia de recombinación. Además, no encontraron correlación entre el contenido de GC y la tasa de recombinación entre las especies bacterianas. Por lo tanto, llegaron a la conclusión de que esta fuerza no podía ser gBGC y, por lo tanto, la selección estaba impulsando un aumento de GC genómico en bacterias. Sin embargo, la naturaleza de esta ventaja selectiva sigue siendo misteriosa, aunque se han propuesto varias hipótesis [25, 26].

Aquí sostenemos que los análisis realizados por Hildebrand et al. [23] no son concluyentes con respecto a la hipótesis de gBGC, y presentamos evidencia de que las variaciones en el contenido de GC observadas en las bacterias están influenciadas por gBGC. Una característica generalizada de gBGC es que las regiones genómicas que experimentan altas tasas de recombinación también adquirirán un alto contenido de GC [6]. Por lo tanto, estudiamos la relación entre la recombinación y el contenido de GC en 20 grupos de bacterias y un grupo de Archaea. Este conjunto de datos cubre una amplia gama de clados representativos de la diversidad bacteriana. Para evitar problemas inherentes a las comparaciones de tasas de recombinación entre especies (como diferencias en polimorfismo, muestras del genoma, tamaño de la población, tasas de mutación y otros factores del ciclo de vida), examinamos la variabilidad intragenómica tanto para la recombinación como para el contenido de GC.

Mostramos que en una amplia variedad de especies bacterianas, los genes con evidencia de recombinación tienen un mayor contenido de GC. Además, mostramos que este sesgo hacia los nucleótidos G / C en la recombinación de genes no se puede explicar mediante la selección en el uso de codones y podría interferir con la selección de codones óptimos de terminación AT. Estas dos observaciones sugieren fuertemente que la recombinación homóloga, vía gBGC, es un factor crucial que influye universalmente en el contenido de nucleótidos de genes y genomas. Si se confirma, gBGC puede explicar varias características omnipresentes pero inexplicables de los genomas bacterianos. Finalmente, enfatizamos que debido a que la gBGC tiene la capacidad de imitar e interferir con la selección natural, la gBGC debe ser considerada por estudios futuros orientados a comprender los procesos que impulsan la evolución del genoma bacteriano.


Métodos

El contenido de GC y el contenido de ADN de 2C se midieron usando citometría de flujo en 239 especies que cubren los 11 órdenes y 70 de las 78 familias de monocotiledóneas actualmente reconocidas (40) (Fig. S2 y Conjunto de datos S1, Tabla S1). Las mediciones del contenido de GC se basaron en la comparación de núcleos teñidos con fluorescencia con dos fluorocromos diferentes [el ADN que intercala yoduro de propidio (que mide el tamaño absoluto del genoma 2C) y DAPI selectivo para AT (que mide la fracción AT del genoma)] utilizando los protocolos de Šmarda y col. (14, 15). Los números de cromosomas para las especies medidas fueron tomados de la literatura o estimados por nosotros en 16 especies (Conjunto de datos S1, Tabla S1) para permitir que se calcule el tamaño del genoma monoploide (1Cx) (1Cx = tamaño del genoma 2C dividido por el nivel ploidal) (65 ). Datos sobre características biológicamente importantes seleccionadas de la historia de vida (forma de vida, estrategia de polinización y sensibilidad a la desecación del polen), así como información sobre la distribución de especies y sus preferencias de hábitat (incluida la distribución geográfica en continentes, extensión del área de distribución, presencia en biomas, requisitos de humedad, o capacidad para crecer en hábitats abiertos expuestos al sol) se obtuvieron de las floras disponibles y la literatura taxonómica (Conjunto de datos S1, Tabla S2). Los datos de distribución geográfica se extrajeron del portal del Servicio de información sobre diversidad biológica mundial (www.gbif.org) y de la Base de datos florística nacional de Sudáfrica (http://bgis.sanbi.org). Los datos geográficos se volvieron a muestrear utilizando un novedoso algoritmo de estratificación de datos espaciales basado en el remuestreo aleatorio restringido por heterogeneidad (66), que se diseñó para eliminar el efecto del muestreo desigual de datos (Métodos SI, Conjunto de datos S2 y Fig. S5). Se extrajeron diecinueve variables bioclimáticas y altitud para cada ubicación seleccionada de la base de datos WorldClim (67) (Conjunto de datos S1, Tabla S2).

El árbol filogenético para todos los taxones medidos, excepto las gramíneas, se obtuvo podando la reciente filogenia de angiospermas fechada a gran escala por Zanne et al. (49) (Figura 1, Métodos SIy las Figs. S1 y S3). Esta filogenia contiene directamente ∼70% de las especies estudiadas, mientras que muchas de las especies restantes estudiadas por nosotros estaban suficientemente relacionadas con las especies estudiadas por Zanne et al. (49) que estos últimos podrían usarse como sustitutos de nuestra especie para proporcionar información sobre sus relaciones filogenéticas. Para las gramíneas, adoptamos el árbol filogenético del Grass Phylogeny Working Group II (37) y usamos la datación de máxima verosimilitud con dos puntos de calibración fósil (Dataset S3). Se detectaron episodios significativos en la evolución del contenido de GC y el tamaño del genoma en el árbol utilizando mínimos cuadrados generalizados y valores de punta reorganizando la aleatorización calculada utilizando el paquete ape (68) en R (69) (Fig.1 y Figs. S1, S3 y S4 y conjunto de datos S4). Comparamos el contenido de GC con el tamaño del genoma, los rasgos de la historia de vida y los datos de nichos climáticos aplicando regresiones múltiples utilizando mínimos cuadrados generalizados filogenéticos calculados en el paquete de alcaparras de R (70) y construimos un modelo explicativo para la variación del contenido de GC, que incluye seis variables no redundantes ( Tabla 1). Para el cálculo, usamos diferentes percentiles (10, 25, 50, 75 y 90) de variables climáticas para tener en cuenta el control multifactorial de las ocurrencias de especies utilizando una lógica de prueba similar a la de la regresión por cuantiles. Full methods and associated references are included in Métodos SI.


Métodos

Alignments

To construct genomic human/chimpanzee/baboon alignments, we retrieved large (≥20 kb) chimpanzee and baboon (i.e., Pan and Papio species) DNA sequences (respectively 291 and 233) from GenBank (Rel. 133, February 2003). We conducted a similarity search against human chromosomes (Ensembl, release 8.3) using Megablast to roughly map chimpanzee and baboon sequences on their orthologous loci. We then used human/chimpanzee and human/baboon pairwise alignments computed by MGA ( Holn, Kurtz, and Ohlebusch 2002) to generate an accurate mapping, which enabled us to identify potential triple alignments. Finally, the alignments were generated using ClustalW, and they comprised a total of 14.3 Mb of orthologous sites distributed on 12 human autosomes. More details on the methodology and the aligments are available at http://pbil.univ-lyon1.fr/datasets/MeunierDuret2004/data.html and in the Supplementary Infomation section.

Recombination Rate

The rates of crossover in the human genome were taken from Kong et al. (2002). The average recombination rates in mouse chromosomes were computed from the Whitehead Mouse Genetic Map URL: http://carbon.wi.mit.edu:8000/cgi-bin/mouse/index#genetic.

Inferring Substitution Rates

Substitutions were inferred in human and chimpanzee lineages using unweighted parsimony on informative sites, with the baboon as outgroup. In our analyses, we only considered substitutions occurring in noncoding regions (as defined by Ensembl annotations). It is known that because of multiple substitutions, parsimony may be misleading. Given the evolutionary distances considered here, only hyper-mutable 5′-CpG-3′ dinucleotides (hereafter noted CpG) are expected to generate homoplasy. We therefore considered three classes of sites: (1) sites not immediately preceded by a C in 5′ or followed by a G in 3′ in any of the human, chimpanzee, or baboon sequences—i.e., sites that are expected never to have been part of a CpG doublet since the last common ancestor of the three species (CpG-free sites) (2) sites for which the ancestral human/chimpanzee state inferred by parsimony was part of a CpG (CpG-anc sites) (3) other sites. All simulations (see below) revealed that (1) sites that we inferred as CpG-free truly evolved without being part of a CpG (2) sites that we inferred as CpG-anc were truly part of an ancestral CpG before the human/chimpanzee split (3) all substitution rates could be accurately estimated on CpG-free and CpG-anc sites, simply by dividing the number of observed changes by the number of inferred ancestral sites (rate estimation errors ≤3%). Using the first site category, we inferred by parsimony six rates (pooling together complementary rates): 4 transversion rates (A → T + T → A, G → C + C → G, A → C + T → G, C → A + G → T) and 2 transition rates (G → A + C → T, A → G + T → C. The transition rate at CpG sites (C → T + G → A) was estimated using the second site category. For better rate estimates, we pooled substitutions in human and chimpanzee lineages.

Simulations

We checked the quality of parsimony inferences on the three classes of sites by performing simulations with the following parameters: ratio transition over transversion: 2.75 increase of the transition rate in CpG: ×10 human/chimpanzee divergence: 1% human/baboon divergence: 5%. Simulations were driven as follows: we first let a sequence evolve until each site experienced an average of 10 substitutions (i.e., to reach equilibrium), using 0.36, 0.42, and 0.52 as GC-bias values we then simulated the sequence evolution on the human/chimpanzee/baboon phylogenetic tree topology either leaving the GC-bias value unchanged or setting it to 0.35 (i.e., mimicking a non-equilibrium situation).

We also used simulations to estimate the time needed to reach the equilibrium GC-content. As above, we started with sequences at equilibrium (initial GC-content: GCI), and then changed the GC-bias parameter and let sequences evolve until they reach their new equilibrium (GCnorte). We plotted the GC-content as a function of the number of substitutions (d), and we measured on this graph the value d1/2 corresponding to half of the distance between GCI y GCnorte. We repeated simulations for different values of GCI (0.35, 0.40, 0.45, 0.50, and 0.55), and of GCnorte (0.35 or 0.40), similar to that observed in our data. The average value of d1/2 was 0.75 substitutions per site (varying from 0.7 to 0.8, depending on the values of GCI y GCnorte). Given the per-year substitution rate observed between human and chimpanzee, this value of d1/2 corresponds approximatively to 750 Myr.

Analysis of Regional Substitution Patterns

Human autosomal chromosomes were divided into 1 Mb non-overlapping windows (referred to as loci). A locus was retained for the analysis only if (1) it was associated with a marker from the genetic map (if a locus was associated with more than one marker, we used the mean crossover rate value for the analysis) (2) it contained alignments with more than 100 AT ↔ GC (i.e., from A or T to G or C or the opposite) substitutions in human and chimpanzee lineages (3) AT → GC (i.e., from A or T to G or C) and GC → AT substitution distributions presented no significant difference among both lineages (Fisher exact test, PAG > 0.05). A total of 33 loci were finally selected for the analysis, with a mean of 1,743 inferred AT ↔ GC substitutions in human and chimpanzee lineages. It is possible to compute the GC-content toward which a sequence is evolving, given its present substitution pattern (the equilibrium GC-content, hereafter denoted as GC*). GC* is generally computed by using the model proposed by Sueoka (1962): under the assumption that all sites within a sequence evolve independently of each other, then GC* should converge to tu/(tu + v), dónde tu y v are, respectively, the AT → GC and GC → AT substitution rates. This assumption is, however, not valid in vertebrates, where it is known that the rate of mutation of a given base depends on the nature of its neighboring bases, essentially because of the hypermutability effects of CpG dinucleotides (Arndt, Petrov, and Hwa 2003). We therefore used the seven substitution rates described above as input to derive GC* using the sequence evolution model of Arndt, Burge, and Hwa (2003), which takes into account not only the different transversion and transition rates, but also the high transition rate at CpG dinucleotides. The error in GC* estimates resulting from the use of parsimony appeared negligible in all our simulations (less than 1% error).


Materiales y métodos

Bacterial Genomes

Complete genomes of Lactobacillus species as of 1 January 2015 were retrieved from the National Center for Biotechnology Information (NCBI) and additional L. kunkeei genomes were added from ( Ellegaard et al. 2015 Tamarit et al. 2015). los Bifidobacteria data set comprised the diversity of species with complete genomes deposited at NCBI as of May 2014 and was completed with B. asteroids y B. coryneforme genomes from ( Ellegaard et al. 2015). Todos Lactobacillus genomes used for the initial phylogeny are shown in supplementary fig. S1 , Supplementary Material online. Todos Lactobacillus y Bifidobacteria genomes used for the codon usage analyses are listed in supplementary table S1 , Supplementary Material online.

Phylogenetic Analyses

Para cada Lactobacillus genome, all annotated proteins shorter than 50 amino acids were filtered out, and an all-against-all BLAST comparison was done using an mi-value cutoff of 1e-05 ( Altschul et al. 1990). los Lactobacillus proteome was classified into protein families using OrthoMcl, using an inflation parameter value of 1.5 ( Li et al. 2003). Of these, 54 protein families contained a single protein from each one of the 135 taxa. The 54 single-copy panorthologs were individually aligned with Mafft-linsi ( Katoh et al. 2002, 2005), trimmed for all positions with over 50% gaps with trimAl ( Capella-Gutierrez et al. 2009), and concatenated using a custom perl script. The phylogeny was inferred using RAxML (Randomized Axelerated Maximum Likelihood) with the PROTCATLG model and 100 bootstrap pseudoreplicates ( Stamatakis 2006). A reduced data set of 34 genomes from the Lactobacillaceae and Leuconostocaceae families was selected for codon usage analysis. The 54 single-copy panorthologs from the reduced set of taxa were aligned with Probcons ( Do et al. 2005) and trimmed with BMGE ( Criscuolo and Gribaldo 2010) with default parameters. A tree was inferred using RAxML with the PROTGAMMALG model and 100 bootstrap pseudoreplicates. los Bifidobacteria data set was treated similarly: OrthoMcl was first used to detect 400 single-copy panorthologs, which were then aligned with Mafft-linsi ( Katoh et al. 2005), trimmed for positions with over 50% gaps, and concatenated with local perl scripts. A tree was then reconstructed with RAxML as before.

Codon Usage Analysis and Genome Statistics

Genome statistics, including GC content, GC3s and Nc, and correspondence analyses were calculated with the aid of the software CodonW ( Peden 1999). The Nc values were calculated based on the GC3s values by the method defined by Wright, as Nc expect = 2 + GC3s + 29/(GC3s + (1−GC3s) 2 ) ( Wright 1990 Chen 2013). The codon usage index (CAI) was calculated by CAI and cusp function from EMBOSS package ( Rice et al. 2000). The relative synonymous codon usage (RSCU) values were calculated using the program GCUA (General Codon Usage Analysis) ( McInerney 1998). The strength of selected codon usage bias was estimated from the S index, which is used as a proxy for translational selection on individual genomes ( Sharp et al. 2005, 2010). The number of tRNA genes and the inference of anti-codons were made with the aid of tRNAscan-SE 1.3.1 ( Lowe and Eddy 1997). Other statistics, including length of CDS and nucleotide position within the genome, were calculated from Genbank or annotation files using Perl and R scripts.

The genes in each data set were categorized into highly expressed and all genes ( Sharp et al. 2005). The highly expressed genes were defined as in ( Sharp et al. 2005), and included genes for translation elongation factor Tu, Ts and G, and 37 large ribosomal proteins, including rplA-rplF, rplI-rplT y rpsB-rpsT, whereas the all genes data set included all genes in the genome. Codons used significantly more or less frequently in the highly expressed gene data set compared with the whole genome data set (chi-squared test, cutoff PAG = 0.01) were defined as optimal (+) and nonoptimal (−) codons according to the Ribosomal Protein (RP) method. Optimal codons were also predicted by the correlative test ( Hershberg and Petrov 2009). In this test, the Nc value for each gene was plotted against the RSCU value for each codon and, for each amino acid, and the codons showing the strongest negative correlation with high significance (PAG < 0.05/number of codons in the codon family) were inferred to represent the optimal codons. Para G. vaginalis, L. delbrueckii y L. fermentum, we also identified optimal codons by testing the correlation between the RSCU values and Nc′ values, with Nc′ values calculated using the ENCprime package ( Novembre 2002).

For the Akashi test (1994), we extracted single copy panorthologs genes from ( Ellegaard et al. 2015 Tamarit et al. 2015). The extracted data set included 400 genes from the Bifidobacteria species and 302 genes from Lactobacillus especies. Amino acid sequence alignments were built with MAFFT-linsi ( Katoh et al. 2002), and then backtranslated to nucleotide sequence alignments. For the identification of conserved and variable sites, we used A. phenanthrenivorans as the reference species for G. vaginalis y S. pyogenes as the reference species for L. delbrueckii y L. fermentum. Conserved sites were defined as codon sites that code for the same amino acid as the sequence in the reference genome, and variable sites as codon sites in the alignment that code for different amino acids. For the implementation of the Akashi’s test (1994), we used the procedure described on the website “http://drummond.openwetware.org/Akashi’s_Test.html”. It is suggested that the Akahi’s test is implemented using the Mantel–Haenszel test in the open-source statistical package R. However, we realized that the test in R is not appropriate because it does not distinguish positive from negative signs. Instead, we followed the procedure exactly as detailed on the website.

Species-Specific Genes

The species-specific proteins were obtained by analysing the output of the bifidobacterial orthoMcl reconstruction ( Ellegaard et al. 2015), and the 135-genomes Lactobacillus orthoMcl reconstruction. The species-specific genes were defined as the singletons in these reconstructions, plus all proteins present in clusters with no other species from the ingroup. These proteins were used as queries in BLASTP searches against the Non-redundant database (NR), using an mi-value cutoff of 1e-03. All genes yielding more hits to other species within the ingroup than to foreign genera within the best 50 hits were discarded. Hits from the same species as the query were filtered out as self hits, as were also hits from closely related species with similar GC content, such as the Lactobacillus especies L. panis, L. oris, L. vaginalis, L. antri, L. frumenti y L. pontis, in the case of L. reuteri ( Vogel et al. 1994 Felis and Dellaglio 2007) L. equicursoris in the case of L. delbrueckii ( Morita et al. 2010) and L. hakayitensis in the case of L. salivarius ( Morita et al. 2007).

In the initial search, the species-specific genes of G. vaginalis yielded numerous hits to Chlamydia trachomatis. These hits originated from sequencing projects published by the Sanger Institute on 10 March 2015 in NCBI. The samples were claimed to represent C. trachomatis genomes, but contained several thousand contigs and several thousand genes. Phylogenetic inferences based on all recruited BLAST hits showed that the identified C. trachomatis sequences clustered inside the G. vaginalis clade, and that they were never represented by more than one or two sequences. In order to assess whether these C. trachomatis genomes were contaminated with G. vaginalis, we blasted the contigs of seven genomes against all 119 Clamidia complete genomes (of which 88 belong to C. trachomatis) and 4 G. vaginalis complete genomes found in NCBI at 20 November 2015. The seven genomes had between 3 and 1,110 contigs with best BLASTn hits to the Gardnerella rather than the Clamidia genomas. Therefore, we concluded that these hits came from metagenomes formed by contaminations or co-infections with G. vaginalis, and were filtered out as self-hits. The next best 250 hits were retrieved with the aid of a tBLASTn search (mi < 1e-05). The sequences of the hits were retrieved and their GC3s values were calculated using CodonW ( Peden 1999).


Conducta animal

¿Alguna vez viste a un perro sentado al mando? ¿Alguna vez has visto a un gato tratando de atrapar un ratón? Estos son solo dos ejemplos de los muchos comportamientos de los animales. Animal comportamiento incluye todas las formas en que los animales interactúan entre sí y con el medio ambiente. Ejemplos de comportamientos animales comunes se muestran en Figura debajo.

Examples of Animal Behavior. Can you think of other examples of animal behavior besides the three shown here?

La rama de la biología que estudia el comportamiento animal se llama etología. Los etólogos suelen estudiar cómo se comportan los animales en su entorno natural, en lugar de en un laboratorio. Por lo general, intentan responder cuatro preguntas básicas sobre los comportamientos que observan:

  1. ¿Qué causa el comportamiento? Cuál es el estímulo, o desencadenante, para el comportamiento? ¿Qué estructuras y funciones del animal están involucradas en el comportamiento?
  2. ¿Cómo se desarrolla el comportamiento? ¿Está presente en una etapa temprana de la vida? ¿O aparece solo cuando el animal madura? ¿Se necesitan ciertas experiencias para que se desarrolle el comportamiento?
  3. Why did the behavior evolve? How does the behavior affect the fitness of the animal performing it? How does it affect the survival of the species?
  4. How did the behavior evolve? How does it compare with similar behaviors in related species? In what ancestor did the behavior first appear?

Patterns of intron sequence evolution in Drosophila are dependent upon length and GC content

Fondo: Introns comprise a large fraction of eukaryotic genomes, yet little is known about their functional significance. Regulatory elements have been mapped to some introns, though these are believed to account for only a small fraction of genome wide intronic DNA. No consistent patterns have emerged from studies that have investigated general levels of evolutionary constraint in introns.

Resultados: We examine the relationship between intron length and levels of evolutionary constraint by analyzing inter-specific divergence at 225 intron fragments in Drosophila melanogaster and Drosophila simulans, sampled from a broad distribution of intron lengths. We document a strongly negative correlation between intron length and divergence. Interestingly, we also find that divergence in introns is negatively correlated with GC content. This relationship does not account for the correlation between intron length and divergence, however, and may simply reflect local variation in mutational rates or biases.

Conclusión: Short introns make up only a small fraction of total intronic DNA in the genome. Our finding that long introns evolve more slowly than average implies that, while the majority of introns in the Drosophila genome may experience little or no selective constraint, most intronic DNA in the genome is likely to be evolving under considerable constraint. Our results suggest that functional elements may be ubiquitous within longer introns and that these introns may have a more general role in regulating gene expression than previously appreciated. Our finding that GC content and divergence are negatively correlated in introns has important implications for the interpretation of the correlation between divergence and levels of codon bias observed in Drosophila.