tabelas de processamento em paralelo usando Azure Fábrica de Dados, encanamento único, único Notebook Databricks?

votos
0

Quero transformar uma lista de tabelas em paralelo usando Azure Fábrica de dados e um único Notebook Databricks.

Eu já tenho um gasoduto Azure Fábrica de Dados (ADF), que recebe uma lista de tabelas como um parâmetro, define cada tabela da lista de tabela como uma variável, em seguida, chama um único notebook (que realiza transformações simples) e passa cada tabela em série para este notebook. O problema é que ele transforma as tabelas em série (um após o outro) e não em paralelo (todos os mesas ao mesmo tempo). Preciso das tabelas a serem processados ​​em paralelo.

Então, minhas perguntas são: 1) É possível desencadear as mesmas múltiplas Databricks notebook vezes no mesmo ponto exato no tempo (cada vez com uma tabela diferente como parâmetro) do Azure dados de fábrica? 2) Se sim, então o que eu preciso para mudança na minha gasoduto ou notebook para que ele funcione?

Eu acho que ele provavelmente não é possível disparar o mesmo notebook várias vezes concomitantemente, porque, quando eu disparar este notebook diretamente do Databricks (e passar uma tabela como variável), eu tenho que esperar por ele para concluir a execução antes de acioná-lo novamente para outro mesa (parâmetro). Mas eu quero ter certeza se é viável ou não. Sei também que é possível para processar várias tabelas em paralelo usando vários notebooks, mas, no meu caso, eu preciso usar um único notebook. Desde já, obrigado :)

parâmetros

Parâmetros

variáveis

variáveis

Jogo Tabela variáveis ​​e caderno

digite

Configurar Sequential

Configurar

Sequencial não verificada com contagem do lote = branco

Quando configurado como sequencial e contagem do lote = em branco, e passar duas tabelas, o oleoduto corre com sucesso, mas apenas uma tabela é transformado (mesmo se eu adicionar várias tabelas na lista de tabela). Set variável corretamente mostra duas vezes, uma para cada tabela. Mas Orchestrate mostra duas vezes para a mesma mesa.

digite

Sequencial não verificada com contagem do lote = 2

Quando configurado como sequencial e contagem do lote = 2, e passar duas tabelas, a tubagem falha na segunda iteração, mas também tenta transformar a mesma tabela duas vezes. Set variável corretamente mostra duas vezes, uma para cada tabela. Mas Orchestrate mostra duas vezes para a mesma mesa.

Sequencial

Verificado sequencial ou contagem do lote = 1

Se eu deixar Sequential verificado ou contagem do lote = 1, então o gasoduto é executado corretamente e executa transformações em todas as mesas, mas o processamento ocorre em série (como esperado).

digite

Publicado 13/01/2020 em 23:55
fonte usuário
Em outras línguas...                            


1 respostas

votos
0

Eu resolvi-lo usando "pesquisa" para um tabelas SQL em vez de "Set Variable". A figura abaixo mostra uma corrida de 5 mesas em paralelo usando um único notebook.

digite descrição da imagem aqui

Respondeu 14/01/2020 em 22:40
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more