Replicando resultados de pd.merge em SQL?

votos
18

Eu tenho brincado com alguns conjuntos de dados localmente em Python, e agora estou tentando replicar os mesmos resultados em um ambiente de nuvem com SQL

Eu tenho 3 tabelas, cada uma com múltiplas identificações duplicadas. Por exemplo, a tabela A conterá IDs a, b, c, d, ..., a tabela B conterá IDs a, c, e, a1, a2 ..., e a tabela C conterá IDs d, f, a2, b1, b2, ...

Atualmente estou fazendo pd.mergepara a tabela A e tabela B no ID a, e tabela C com a tabela resultante da primeira fusão no ID a2. Ao usar o pd.merge, notei que ele adicionaria um _xou um _yaos IDs duplicados (com isso, quero dizer no primeiro pd.mergeda tabela A e tabela B, cda tabela A se tornaria c_x, e cda tabela B se c_ytornaria e assim por diante para qualquer outro ID duplicado. O mesmo se aplicaria a qualquer outro ID duplicado para qualquer junção

Como eu seria capaz de replicar este processo e contornar o problema com IDs duplicados em SQL?

Publicado 26/05/2020 em 03:30
fonte usuário
Em outras línguas...                            


1 respostas

votos
0

Acho que você pode renomear na junção do resto das colunas com novos nomes:

SELECT table_A.ID_a, table_A.c_ID as c_ID_from_A, table_B.c_ID as c_ID_from_B
FROM table_A
JOIN table_B ON(table_A.ID_a = table_B.ID_a)

Espero que o ache útil.

Respondeu 10/06/2020 em 15:51
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more