Já comentei aqui no blogue algumas vezes sobre o potencial que o laboratório Genera tem para tornar seu produto mais amigável para os genealogistas e sugeri que uma melhoria já poderia vir da inclusão de uma ferramenta de busca de primos genéticos (matches) em comum, ou seja, uma ferramenta que apresentasse os matches com parentesco entre o cliente e um parente dele já testado na mesma plataforma. Essa ferramenta permitiria, por exemplo, separar os matches oriundos do ramo paterno do cliente daqueles que seriam oriundos de seu ramo materno, desde que ele tivesse ao menos um parente de um dos ramos testado pelo Genera. Em famílias como a minha, na qual o ramo paterno não tem relação de parentesco nem distante com o ramo materno, essa ferramenta funcionaria perfeitamente. Mas a realidade é que ela não existe e nem parece haver interesse do laboratório em implementá-la.

Disso resulta o empecilho para fazer uma varredura nos matches, que podem facilmente chegar aos milhares em alguns casos. Eu mesmo tenho apenas 102 matches, sendo que alguns deles são minhas primas de primeiro e segundo graus. Os casos delas são ainda mais complicados: Fátima e Regina, primas de primeiro grau, têm, respectivamente, 48 e 1.508 matches próprios; Thais e Simone, primas de segundo grau, têm, respectivamente, 781 e 2.177 matches só seus. Ainda que desconsiderando que somos matches uns dos outros, existe aí um enorme universo de correspondências de DNA que se repetem entre nós sem que possamos encontrá-los se não for pela pesquisa nominal. Eu já tentei essa pesquisa algumas vezes e posso garantir que é bem cansativa. Se ao menos o Genera permitisse exportar os matches em formato de planilha, já facilitaria a comparação, mas nem isso é possível.

Já consegui esclarecer o parentesco comum entre vários desses matches meus e de minhas primas, mas estou ciente de que existe aí um potencial impossível de explorar por conta da extrema simplicidade do que o Genera oferece aos clientes. Como a frustração é mãe da invenção, matutei por algum tempo sobre uma forma de extrair todas as informações das centenas e milhares de matches da plataforma e descobri um jeitinho. Não é algo fácil, pois envolve o uso do navegador Chrome, a instalação de duas extensões para esse navegador, a configuração precisa de um deles, o salvamento de uma extensa página HTML para os matches de cada cliente, a extração dos dados dessa página por meio de uma IA para geração de planilhas individuais e a extração dos dados que são comuns entre as planilhas geradas.

A primeira etapa é a instalação das extensões uAutoPagerize e Autoscroll: Automatic Page Scrolling para o navegador Chrome. Depois de instalá-las, deve-se abrir a ferramenta Busca parentes do Genera e executar as extensões na ordem em que foram apresentadas aqui. A primeira extensão serve para abrir em sequência os links de paginação da ferramenta Busca parentes de forma que se gere uma página única com todos os matches. A segunda extensão serve para fazer a página gerada avançar (Scroll Down) automaticamente em direção aos links de paginação até que se alcance o último registro. O segredo é configurar o parâmetro Speed da segunda extensão para que a rolagem automática não seja nem tão lenta que o processo se torne demorado, nem tão rápida que interrompa a abertura dos links seguintes.

Se tudo funcionar como esperado, o resultado será uma única e longa página todos os matches do cliente e que deve ser gravada em formato HTML. Para tanto, basta clicar em sequência as teclas Ctrl e S, escolher o lugar onde ela será armazenada e, na opção Tipo, escolher Página Web, Completa. Uma vez concluída a gravação, o que pode demorar alguns minutos, basta escolher a ferramenta de IA que poderá extrair os dados contidos na página – eu usei o ChatGPT. O comando para a IA executar a extração pode ser algo assim: “Extraia todas as informações deste arquivo para uma planilha Excel contendo as seguintes colunas: NOME / EMAIL / CM / DNA-Y / MTDNA”. O comando deve ser digitado logo após o envio do arquivo HTML para a IA.

O interessante desse jeitinho está na possibilidade de cruzar as informações de matches próprios com as de matches de parentes paternos e/ou maternos que também fizeram o teste do Genera. Basta gerar uma planilha Excel para cada parente conforme explicado antes e depois voltar à IA e pedir que ela extraia apenas os matches comuns entre elas. O comando pode ser como neste exemplo: “As planilhas enviadas contêm os matches de DNA autossômico para mim (José) e minhas primas (Fatima, Regina, Simone e Thais). Procure nomes de matches (em conjunção com e-mails) que se repetem nessas planilhas e gere um novo arquivo contendo apenas esses nomes de matches com os respectivos matches deles em minha família, apenas fornecendo os cM compartilhados entre cada match e mim e minhas primas”.

Matches comuns para mim e minhas primas

A planilha que obtive nessa segunda extração continha 206 matches com os respectivos valores de DNA compartilhado (cM) comigo e/ou com minhas primas. Ela é agora minha ferramenta de investigação por excelência.


José Araújo é genealogista.