Minhas recomendações mais frequentes para um brasileiro que começa a se interessar por Genealogia são: (1) faça um teste de DNA desses que se tornaram conhecidos na mídia e (2) escolha uma empresa brasileira para fazer esse teste. Não são recomendações com interesse comercial, pois não tenho nenhum tipo de parceria com as empresas que oferecem tais testes. Meu interesse é puramente prático: ao escolher uma empresa brasileira, a pessoa contribuirá para aumentar a base de dados genéticos de brasileiros, o que reverte em informação útil para a pesquisa genealógica local, reduzindo as correspondências (matches) com estrangeiros que podem estar relacionados apenas remotamente. Mas preciso reconhecer, ou reiterar, que as empresas brasileiras ainda são limitadas quanto aos recursos que oferecem para a pesquisa puramente genealógica. E aqui vou tratar de mais uma limitação que nem é tão evidente para os recém-chegados.
Apenas para ficar no caso da Genera, que provavelmente tem a maior base de dados genéticos de brasileiros, podemos atestar que o foco da empresa não é a Genealogia, pois nela não encontramos mesmo uma ferramenta básica para análise aprofundada das correspondências (matches) entre os clientes, como a triangulação. Mas aqui desejo falar da tal limitação dessa plataforma que pode passar despercebida para os novatos: a estimativa de DNA compartilhado entre matches. Já faz tempo que nas comunidades do Facebook dedicadas ao tema da Genealogia Genética se reconhece que o Genera subestima o valor de DNA compartilhado, que é medido em centimorgans. Isso pode ter impacto na estimativa do grau de parentesco, principalmente para pessoas que fazem o teste da plataforma para descobrir a identidade de seus pais biológicos.
A título de exemplo, apresento a seguinte tabela, na qual informo a quantidade de DNA que, de acordo com a Genera, compartilho com minhas primas Regina, Simone e Thais. Essa quantidade é comparada com os valores correspondentes informados pela GEDmatch e a MyHeritage. Regina é minha prima de primeiro grau (temos os mesmos avós por um ramo), enquanto Simone e Thais são minhas primas de segundo grau (temos os mesmos bisavós). É perceptível o quanto os valores informados pela primeira plataforma se encontram apartados dos valores informados pelas outras duas, nas quais a diferença é menor.
| PRIMA | Genera | GEDM | MyHer |
| Regina | 584 | 984,2 | 898,9 |
| Simone | 127 | 285,4 | 259,1 |
| Thais | 30 | 63,7 | 73,8 |
Por considerar importante ter uma estimativa mais real a partir dos valores informados pela Genera, busquei apoio do ChatGPT para entender de que forma ela operava a discrepância a fim de chegar a um modelo de correção. Alimentei a IA com o gráfico de referência (v4) do Shared cM Project; com os valores da tabela acima; com os valores de centimorgans para matches meus de seis pessoas em diferentes plataformas, sendo uma delas a Genera, bem como com os graus de parentesco – reconhecidos via genealogia documental – para alguns desses matches. A análise comparativa revelou que a Genera sistematicamente subestimava os valores de cM e o fazia de forma mais acentuada em faixas intermediárias (entre 300 e 900 cM), sugerindo um modelo não linear. Em contrapartida, nos casos da amostragem em que o parentesco era muito próximo (pais, filhos ou irmãos), a plataforma pareceu superestimar levemente os cM.
A partir dessa interpretação, a IA produziu um modelo de correção que foi embutido na ferramenta exibida abaixo. Para usá-la, basta digitar o valor de cM informado pela Genera para um dado match seu e será apresentado um valor corrigido mais aproximado em relação ao gráfico de referência do Shared cM Project, do qual são também extraídos os valores de Média e Faixa exibidos. O Desvio da média informa o quanto o valor corrigido se afasta da média na referência, considerando que quanto menor for o desvio, mais preciso será o resultado – exceto quando apenas um grau parentesco for provável. As abreviaturas 1R e 2R significam diferenças geracionais (R vem do inglês removed), portanto 1R refere-se a um parente que está uma geração acima ou abaixo do grau principal, como o primo do pai (primo de primeiro grau uma vez removido) ou o filho do primo (também 1R); 2R significa duas gerações de diferença, como o neto do primo de primeiro grau.
Desde já alerto que a ferramenta acima é apenas uma versão preliminar a ser aperfeiçoada.
José Araújo é genealogista.