Todo DNA conta uma história

Como a desvendamos?

Na Genera, acreditamos que o conhecimento sobre a sua história é transformador, e entender sua linhagem genética é um dos melhores caminhos para isso. A fim de colaborarmos nessa jornada, desenvolvemos este material explicativo para que, além de descobrir mais sobre seu DNA, você possa entender como nossas análises e metodologias funcionam.

As análises da Genera são realizadas em nosso parque tecnológico – o maior da América Latina. Os resultados são obtidos a partir da análise de até 700 mil regiões do DNA: marcadores genéticos selecionados são comparados com nosso banco de dados, que conta com mais de 9 mil amostras de referência, obtidas por meio de dezenas de estudos científicos e oriundas de 300 populações de todo o mundo.

Parte I

O que procuramos?

Parte I

O que procuramos?

O DNA (sigla em inglês para “ácido desoxirribonucleico”) é a molécula que fica dentro de praticamente todas as células que formam nosso corpo, contendo em si toda a informação genética que compõe e gerencia cada um de nós. São essas informações que definem e regulam como somos, seja em termos de características físicas como altura, cor dos olhos e cabelo, seja em traços de personalidade e predisposição a doenças ou no controle do metabolismo e funcionamento dos órgãos. Todo ser humano recebe metade do seu DNA por parte de mãe e a outra metade por parte de pai, de tal forma que, no decorrer das gerações, cada um de nós guarda informações sobre aqueles que nos antecederam.

Desde a origem do homem moderno na África, muita coisa mudou na dinâmica populacional. O deslocamento não era tão fácil como nos dias atuais, de modo que, no passado, as populações costumavam permanecer isoladas e com pouco fluxo gênico (migração de um indivíduo de uma população para outra). Esse fato, somado à evolução, fez com que as populações antigas se tornassem geneticamente distintas entre si, já que variações genéticas permaneciam confinadas em um determinado espaço geográfico, sendo herdadas apenas por indivíduos da mesma região. Esta dinâmica se manteve intacta por muito tempo, e algumas populações atuais ainda apresentam um perfil genético muito característico – principalmente aquelas localizadas em regiões geograficamente isoladas.

Existem regiões do DNA que se alteraram mais que outras no decorrer de gerações e costumam ser utilizadas como marcadores genéticos. No caso do teste de ancestralidade, analisamos SNPs (sigla em inglês para “Polimorfismo de Nucleotídeo Único”). Estes marcadores em específico consistem em mutações de apenas um nucleotídeo, ou seja, em um dos quatro tipos de molécula que compõem o DNA, representadas pelas letras A, T, C e G. Portanto, um SNP é uma variação de um par de letras da sequência genética.

Por exemplo, algumas pessoas podem ter uma sequência ATTC, enquanto outras têm AGTC. Essa troca da letra T por G é um SNP. Por possuírem uma taxa de mutação muito baixa, a troca de letrinhas é considerada um evento raro e que demora muito para ter uma frequência considerável nas populações. O conjunto das frequências populacionais de milhares de SNPs nos dá um perfil genético para cada população.

O Brasil, por ter recebido a entrada de muitos imigrantes em pouco tempo, apresenta um perfil genético bastante variado, composto principalmente por europeus, africanos e ameríndios.

Parte II

Nosso banco de dados

Parte II

Nosso banco de dados

Para compreender a estimativa da composição da sua ancestralidade, comparamos um conjunto de SNPs informativos do seu DNA com os perfis populacionais de 44 regiões diferentes. Várias dessas regiões são ainda subdivididas de forma qualitativa, indicando a maior probabilidade da origem do DNA. Para calcular essa probabilidade, trabalhamos com um banco de dados genéticos de mais de 9 mil indivíduos, que representam 300 populações de todo o mundo e cujos genótipos foram resgatados de publicações científicas e bancos de dados públicos. A partir dessas análises, os dados foram agrupados em 107 regiões e sub-regiões, levando em consideração a similaridade genética e a história das populações.

Em muitos casos, uma região geográfica é composta por populações diferentes entre si, mas similares a outras de outros locais do globo, o que reflete as migrações, invasões, diásporas e colonizações sofridas ao longo da história. É importante que essas regiões utilizadas no banco sejam suficientemente diferentes entre si para que a comparação seja válida.

O gráfico abaixo mostra o perfil genético de sete grupos populacionais principais (África, América, Ásia, Europa, Oceania e Oriente Médio), dos quais fazem parte as 107 regiões e sub-regiões. Por se tratar de populações geograficamente distantes, os perfis acabam sendo bastante distintos entre si, o que é representado pelos agrupamentos observados no gráfico abaixo.

As regiões e sub-regiões que compõem cada grupo do nosso teste estão descritas abaixo:

África

Chifre da África
- Norte da Etiópia
- Centro-Sul da Etiópia
- Somália
Leste da África
- Oeste do Quênia
- Região dos Grandes Lagos (Povos Bantu Orientais)
Nilotas
- Sul do Sudão e Sudoeste da Etiópia
- Oeste da Etiópia
- Sudão
Khoisan
Oeste da África
Senegâmbia
Mandê
Costa da Mina
Bayaka
Mbuti
Madagascar

Oriente Médio e Magrebe

Levante
- Jordânia
- Síria e Líbano
Arábia e Egito
- Egito
- Israel
- Arábia Saudita, Iêmen e Emirados Árabes
Magrebe
- Marrocos
- Argélia e Tunísia
- Líbia
Mizrahim
Teimanim

Europa

Itália
- Norte da Itália
- Centro-Sul da Itália
Ibéria
Cáucaso
- Armênia
- Geórgia
- Norte do Cáucaso (Rússia)
- Anatólia
Balcãs
- Bulgária e Macedônia do Norte
- Croácia e Bósnia-Herzegovina
- Grécia
- Romênia e Moldávia
- Sérvia e Montenegro
Lapônia e Volga-Ural
- Rússia (região Volga-Ural)
- Lapônia (Povos Saami)
Leste Europeu
- Hungria
- Lituânia, Letônia e Estônia
- Centro-Oeste da Rússia
- Polônia e Eslováquia
- Ucrânia e Bielorrússia
Europa Ocidental
- Ilhas Britânicas
- Alemanha, França e Países Baixos
Basco
Sardenha
Fenoscândia
Ashkenazim
Sefaradim

Américas

América do Norte
América Central
América Andina
- Lago Titicaca (Uros, Quechua e Aymara)
- Região Central dos Andes (Povos Aymaras e Quechuas)
Amazônia
Tupi
- Tupi Ariquém
- Tupi Mondé
Patagônia

Ásia

Ásia Central
- Turcomenistão, Uzbequistão, Cazaquistão e Quirguistão
- Tajiquistão
- Paquistão (Província do Baluquistão)
Sul da Ásia
- Bangladesh
- Índia e Sri Lanka
- Paquistão (Povos Sindhi, Burusho e Pathan)
Sudeste Asiático
- Malásia
- Laos
- Vietnã
- China Dai
- Myanmar
- Taiwan
- Ilhas Sunda
Sibéria
- Norte da Sibéria
- Sibéria Ocidental
- Sibéria Oriental e Mongólia
Japão e Coreia
- Japão
- Coreia
Filipinas e Brunei
- Filipinas
- Brunei
- Ilha de Luzon (Povos Kankanaey)
China Han
Mongol
Tibete

Oceania

Melanésia
- Ilhas Salomão
- Papua Nova Guiné

África

Chifre da África
- Norte da Etiópia
- Centro-Sul da Etiópia
- Somália
Leste da África
- Oeste do Quênia
- Região dos Grandes Lagos (Povos Bantu Orientais)
Nilotas
- Sul do Sudão e Sudoeste da Etiópia
- Oeste da Etiópia
- Sudão
Khoisan
Oeste da África
Senegâmbia
Mandê
Costa da Mina
Bayaka
Mbuti
Madagascar

Américas

América do Norte
América Central
América Andina
- Lago Titicaca (Uros, Quechua e Aymara)
- Região Central dos Andes (Povos Aymaras e Quechuas)
Amazônia
Tupi
- Tupi Ariquém
- Tupi Mondé
Patagônia

Ásia

Ásia Central
- Turcomenistão, Uzbequistão, Cazaquistão e Quirguistão
- Tajiquistão
- Paquistão (Província do Baluquistão)
Sul da Ásia
- Bangladesh
- Índia e Sri Lanka
- Paquistão (Povos Sindhi, Burusho e Pathan)
Sudeste Asiático
- Malásia
- Laos
- Vietnã
- China Dai
- Myanmar
- Taiwan
- Ilhas Sunda
Sibéria
- Norte da Sibéria
- Sibéria Ocidental
- Sibéria Oriental e Mongólia
Japão e Coreia
- Japão
- Coreia
Filipinas e Brunei
- Filipinas
- Brunei
- Ilha de Luzon (Povos Kankanaey)
China Han
Mongol
Tibete

Europa

Itália
- Norte da Itália
- Centro-Sul da Itália
Ibéria
Cáucaso
- Armênia
- Geórgia
- Norte do Cáucaso (Rússia)
- Anatólia
Balcãs
- Bulgária e Macedônia do Norte
- Croácia e Bósnia-Herzegovina
- Grécia
- Romênia e Moldávia
- Sérvia e Montenegro
Lapônia e Volga-Ural
- Rússia (região Volga-Ural)
- Lapônia (Povos Saami)
Leste Europeu
- Hungria
- Lituânia, Letônia e Estônia
- Centro-Oeste da Rússia
- Polônia e Eslováquia
- Ucrânia e Bielorrússia
Europa Ocidental
- Ilhas Britânicas
- Alemanha, França e Países Baixos
Basco
Sardenha
Fenoscândia
Ashkenazim
Sefaradim

Oceania

Melanésia
- Ilhas Salomão
- Papua Nova Guiné

Oriente Médio e Magrebe

Levante
- Jordânia
- Síria e Líbano
Arábia e Egito
- Egito
- Israel
- Arábia Saudita, Iêmen e Emirados Árabes
Magrebe
- Marrocos
- Argélia e Tunísia
- Líbia
Mizrahim
Teimanim

Ao definir as populações e regiões, também foi considerada a história particular da composição alélica da população brasileira. Isso significa que tomamos um cuidado especial ao definir as populações ameríndias, de modo que conseguimos dividi-las em seis grupos e quatro subgrupos: Tupi (Tupi Mondé e Tupi Ariquém), Amazônia, América Andina (Lago Titicaca e Região Central dos Andes), Patagônia, América Central e América do Norte). O mesmo pode ser dito sobre as populações africanas. Isso faz com que nosso teste traga uma carga de informações mais rica para o brasileiro, sendo possível ir mais a fundo na ancestralidade africana e indígena.

As sub-regiões de cada local apresentam um resultado qualitativo da ancestralidade de uma pessoa, diferente das regiões, que apresentam valores quantitativos. O resultado qualitativo serve para informar, dentro de cada região, qual é o local mais provável de origem do DNA detectado.

Como inferimos a ancestralidade de uma pessoa?

A partir das frequências alélicas de cada SNP para cada uma das populações, calculamos, pelo método de máxima verossimilhança, a composição ancestral mais provável do DNA do indivíduo analisado. Nesta abordagem, presume-se uma distribuição multinomial e busca-se a combinação de populações que melhor explique o genótipo do indivíduo. Além disso, utilizando modelos de machine learning, ajustamos a ancestralidade e calculamos os valores de ancestralidade dos grupos mais específicos. Para mais detalhes, ver em apêndice para nerds.

Validação

A fim de investigar a eficiência da calculadora de ancestralidade, conduziu-se uma amostragem estratificada de cada população, resultando em um total de 1530 indivíduos de ancestralidade conhecida e que foram utilizados para avaliar as métricas de precisão e sensibilidade do método. A precisão resume o quanto o método é assertivo ao indicar a maior ancestralidade, ao passo que a sensibilidade indica a proporção da maior ancestralidade assinalada corretamente pelo método, considerando os indivíduos de determinada ancestralidade. Em outras palavras, a precisão responde à pergunta:

“Quando o método atribui a maior ancestralidade à população X, com que frequência esta atribuição, de fato, reflete a população X?”

Já a métrica de sensibilidade busca responder o seguinte:

“Das amostras oriundas da população X, com que frequência o método, corretamente, atribui a maior ancestralidade dessas amostras à população X?”

Por exemplo, na tabela 1, verificamos que o método resulta em 99% de sensibilidade para os indivíduos pertencentes ao grupo “América Andina”, ou seja, o mesmo indica corretamente que a maior proporção de ancestralidade dos indivíduos é de fato dessa região. Em contrapartida, para o mesmo grupo, verificamos 93,0% de precisão, revelando que 7,0% dos casos, analisados como se fossem majoritariamente da América Andina, têm outra região de origem como predominante. Essa região de origem, geralmente, corresponde a outras populações que são geneticamente semelhantes, como outros grupos populacionais nativos da América, no caso da população andina.

_{Tabela 1}

Grupo	Precisão	Sensibilidade
Ásia Central	97%	36%
Sul da Ásia	92%	98%
Bayaka	91%	100%
Mbuti	100%	100%
Melanésia	95%	100%
Europa Ocidental	82%	80%
Arábia e Egito	64%	81%
Amazônia	98%	90%
Sudeste Asiático	94%	60%
Japão e Coreia	90%	95%
Tupi	100%	100%
América Central	95%	97%
Senegâmbia	87%	97%
Costa da Mina	89%	99%
China Han	57%	97%

Grupo	Precisão	Sensibilidade
América do Norte	100%	100%
Itália	71%	84%
Mongol	75%	71%
Magrebe	96%	74%
Basco	88%	83%
Cáucaso	78%	99%
Leste da África	99%	99%
Leste Europeu	70%	91%
Chifre da África	88%	98%
Ibéria	63%	64%
Sibéria	71%	90%
Nilotas	95%	100%
Oeste da África	97%	97%
Lapônia e Volga-Ural	90%	56%
América Andina	93%	99%

Grupo	Precisão	Sensibilidade
Balcãs	82%	71%
Filipinas e Brunei	61%	86%
Fenoscândia	90%	91%
Khoisan	100%	95%
Mandê	100%	48%
Sardenha	85%	85%
Levante	73%	19%
Mizrahim	90%	80%
Teimanim	100%	71%
Sefaradim	89%	55%
Ashkenazim	95%	99%
Patagônia	100%	100%
Tibete	87%	74%
Madagascar	93%	92%

Tabela 1

Grupo	Precisão	Sensibilidade
Ásia Central	97%	36%
Sul da Ásia	92%	98%
Bayaka	91%	100%
Mbuti	100%	100%
Melanésia	95%	100%
Europa Ocidental	82%	80%
Arábia e Egito	64%	81%
Amazônia	98%	90%
Sudeste Asiático	94%	60%
Japão e Coreia	90%	95%
Tupi	100%	100%
América Central	95%	97%
Senegâmbia	87%	97%
Costa da Mina	89%	99%
China Han	57%	97%

América do Norte	100%	100%
Itália	71%	84%
Mongol	75%	71%
Magrebe	96%	74%
Basco	88%	83%
Cáucaso	78%	99%
Leste da África	99%	99%
Leste Europeu	70%	91%
Chifre da África	88%	98%
Ibéria	63%	64%
Sibéria	71%	90%
Nilotas	95%	100%
Oeste da África	97%	97%
Lapônia e Volga-Ural	90%	56%
América Andina	93%	99%

Balcãs	82%	71%
Filipinas e Brunei	61%	86%
Fenoscândia	90%	91%
Khoisan	100%	95%
Mandê	100%	48%
Sardenha	85%	85%
Levante	73%	19%
Mizrahim	90%	80%
Teimanim	100%	71%
Sefaradim	89%	55%
Ashkenazim	95%	99%
Patagônia	100%	100%
Tibete	87%	74%
Madagascar	93%	92%

Em geral, existe um efeito perde-e-ganha entre as métricas de precisão e sensibilidade. Comumente, sistemas com alta precisão serão bastante cautelosos ao indicar a maior ancestralidade. Um possível efeito disso seria um menor valor de sensibilidade, uma vez que o maior restringimento poderia resultar em uma maior quantidade de falsos-negativos. Nossa metodologia foi capaz de assinalar com alta precisão e sensibilidade a ancestralidade esperada dos indivíduos analisados.

Mas como interpretar meus resultados?

Deve-se sempre ter em mente que as proporções obtidas referem-se ao conjunto de populações investigadas. Assim, um resultado indicando uma proporção maior de um determinado grupo indica que a maior parte do seu DNA é condizente com o perfil observado para esse determinado grupo. Logo, em algum momento na história, algum ancestral dessa determinada região provavelmente ingressou na sua linhagem familiar.

É importante destacar que esses valores refletem que seu DNA é parecido com o DNA dos indivíduos amostrados para determinada região. De fato, é a partir deles que predizemos o perfil genético de cada grupo utilizado para os cálculos de admixture – isto é, a mistura genética de diferentes populações. Por exemplo, é de se esperar que indivíduos do continente americano sejam um reflexo da mistura de ameríndios, europeus, africanos e de povos do Oriente Médio e judaico, conforme indicado pela história dos últimos 500 anos.

Parte III

E os meus dados?

Parte III

E os meus dados?

Tão importante quanto entender como desenvolvemos nossos métodos e chegamos a seus resultados de ancestralidade é entender como cuidamos de seus dados. Na Genera, a segurança dos seus dados é de extrema importância e buscamos ser transparentes em relação a isso. Suas informações genéticas são mantidas em nossos bancos de dados de forma segura e anonimizada. Nenhum acesso exterior a elas é permitido e não há nenhuma comercialização a terceiros das mesmas.

Nossa política de privacidade, ponto a ponto, pode ser acessada aqui.

Apêndice para Nerds

Como funciona a estimativa por máxima verossimilhança (maximum likelihood estimation – MLE)?

Quando analisamos o DNA, não sabemos de antemão quais grupos populacionais influenciaram em sua composição. Para cada SNP analisado, obtemos como resultado apenas um par de letras, cada uma herdada a partir de um dos genitores. A essas letras (A, T, C ou G), dá-se o nome de alelos. A frequência de cada alelo em cada SNP varia de população para população, de modo que podemos utilizar dessa informação para predizer a que região uma determinada fração do DNA mais provavelmente estaria associada. Por exemplo, se o alelo A para um determinado SNP é mais comum em pessoas de origem árabe e o indivíduo analisado é genotipado como AA para esse SNP, então presumimos que deve haver uma maior chance de o mesmo ter ancestralidade árabe.

Contudo, um único SNP, por si só, não traz informações suficientes para realizarmos a distinção entre grupos populacionais. É por isso que analisamos milhares de SNPs, relacionando o genótipo do indivíduo com a frequência dos alelos de cada população. A indicação da composição ancestral de um indivíduo é obtida através de um algoritmo desenvolvido a partir do método da máxima verossimilhança (maximum likelihood estimation – ou MLE). Por meio dele, calculamos o grau de similaridade do seu DNA com o perfil alélico de 40 regiões geográficas e indicamos a proporção de ancestralidade de cada região.

O objetivo do método de máxima verossimilhança é encontrar a distribuição de probabilidade que melhor se encaixe a um conjunto de dados observados. Para isso, os parâmetros dessas distribuições são ajustados até que passem a refletir o comportamento observado dos dados. Tal ajuste é computado a partir do cálculo da probabilidade de os dados pertencerem a uma determinada distribuição para valores específicos de parâmetros testados. O conjunto de parâmetros mais adequados é, portanto, o resultado da maximização do cálculo dessas probabilidades através de métodos numéricos de otimização.

Na figura 1, ilustramos um exemplo do funcionamento do método. O conjunto de dados está representado pelas posições das bolas azuis sobre a linha horizontal, e as linhas, em roxo, são as curvas que representam diferentes tentativas de distribuições de probabilidade (A, B, C e D) para representar os dados. As linhas pontilhadas, projetadas sobre a linha horizontal, representam o valor de média (𝛍) daquela distribuição de probabilidade, e a altura de cada pedaço da curva representa a densidade de pontos que se espera naquela região. Em A, testou-se uma distribuição exponencial para explicar o conjunto de dados, porém nota-se que ela não é fiel ao comportamento dos mesmos – para que esse tipo de distribuição fosse adequado, as bolas deveriam estar mais concentradas na parte esquerda do eixo horizontal, com algumas poucas espaçadas à direita. Em B, C e D, testaram-se distribuições normais com diferentes valores de média e desvio-padrão (𝞂). Dentre estas, é visível que a distribuição D é a que melhor se adequa aos dados (matematicamente, a probabilidade de ajuste dos dados à curva é máxima em D).

Para o cálculo da composição de ancestralidade, em específico, buscamos ajustar os dados genotípicos do indivíduo a uma distribuição multinomial. Neste caso, o conjunto de parâmetros obtidos com o método reflete a proporção da contribuição de cada grupo populacional ao indivíduo analisado.

Como funciona o ajuste da ancestralidade?

O ajuste da ancestralidade é feito com base em algoritmos de machine learning. Treinamos uma série de modelos de que são usados para fazer um ajuste fino na composição de ancestralidade em conjunto com o método de máxima verossimilhança.

Como é feito o cálculo dos grupos mais específicos?

O cálculo de ancestralidade das sub-regiões é feito com modelos de machine learning para cada uma das regiões que podem ser subdivididas (Tabela de Populações Genera). Esse resultado é apresentado com base em uma escala de 1 a 5, sendo que quanto maior é esse valor, maior é a probabilidade de a sub-região explicar a ancestralidade encontrada nas etapas anteriores.

Escolha seu pacote Genera