Eu tenho brincado com alguns conjuntos de dados localmente em Python, e agora estou tentando replicar os mesmos resultados em um ambiente de nuvem com SQL
Eu tenho 3 tabelas, cada uma com múltiplas identificações duplicadas. Por exemplo, a tabela A conterá IDs a, b, c, d, ...
, a tabela B conterá IDs a, c, e, a1, a2 ...
, e a tabela C conterá IDs d, f, a2, b1, b2, ...
Atualmente estou fazendo pd.merge
para a tabela A e tabela B no ID a
, e tabela C com a tabela resultante da primeira fusão no ID a2
. Ao usar o pd.merge, notei que ele adicionaria um _x
ou um _y
aos IDs duplicados (com isso, quero dizer no primeiro pd.merge
da tabela A e tabela B, c
da tabela A se tornaria c_x
, e c
da tabela B se c_y
tornaria e assim por diante para qualquer outro ID duplicado. O mesmo se aplicaria a qualquer outro ID duplicado para qualquer junção
Como eu seria capaz de replicar este processo e contornar o problema com IDs duplicados em SQL?