Como carregar e salvar dados grandes para o Google Colaboratory da unidade local?

votos
4

Tenho baixado dados de treinamento image grandes como zip a partir deste link Kaggle

https://www.kaggle.com/c/yelp-restaurant-photo-classification/data

Como forma eficiente atingir os seguintes?

  1. Criar uma pasta de projeto no Google Colaboratory
  2. Carregar arquivo zip a pasta de projeto
  3. descompactar os arquivos

obrigado

EDIT: Eu tentei o código abaixo, mas a sua falhando para o meu grande arquivo zip. Existe uma maneira melhor / eficiente de fazer isso onde eu só posso especificar o local do arquivo na unidade local?

from google.colab import files
uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file {name} with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))
Publicado 19/02/2018 em 04:27
fonte usuário
Em outras línguas...                            


5 respostas

votos
2

Você pode referir-se a estes tópicos:

Confira também a O exemplo notebook / I . Exemplo, para o acesso a xlsarquivos, você vai querer fazer o upload do arquivo para as Planilhas Google. Então, você pode usar as gspreadreceitas na mesma I / O exemplo notebook.

Respondeu 19/02/2018 em 13:50
fonte usuário

votos
1

Você pode precisar usar kaggle-climódulo para ajudar com o download.

É discutido em esta discussão fast.ai .

Respondeu 19/02/2018 em 22:41
fonte usuário

votos
0

Eu escrevi este script que baixa e extrai dados do API Kaggle a um notebook Colab. Você só precisa colar em seu nome de usuário, chave de API, e o nome da competição.

https://gist.github.com/jayspeidell/d10b84b8d3da52df723beacc5b15cb27

A função de upload manual em Colab é uma espécie de buggy de agora, e é melhor baixar arquivos via wget ou um serviço de API de qualquer maneira porque você começa com um novo VM cada vez que você abrir o notebook. Desta forma, os dados irá baixar automaticamente.

Respondeu 14/03/2018 em 04:10
fonte usuário

votos
2
!pip install kaggle
api_token = {"username":"USERNAME","key":"API_KEY"}
import json
import zipfile
import os
with open('/content/.kaggle/kaggle.json', 'w') as file:
    json.dump(api_token, file)
!chmod 600 /content/.kaggle/kaggle.json
!kaggle config set -n path -v /content
!kaggle competitions download -c jigsaw-toxic-comment-classification-challenge
os.chdir('/content/competitions/jigsaw-toxic-comment-classification-challenge')
for file in os.listdir():
    zip_ref = zipfile.ZipFile(file, 'r')
    zip_ref.extractall()
    zip_ref.close()

Há pequena alteração na linha 9 , sem a qual estava encontrando erro. fonte: https://gist.github.com/jayspeidell/d10b84b8d3da52df723beacc5b15cb27 não poderia adicionar como comentário causa rep.

Respondeu 26/03/2018 em 07:37
fonte usuário

votos
0

Outra opção é fazer o upload dos dados para dropbox (se ele pode caber), obter um link para download. Em seguida, no caderno fazer

!wget link -0 new-name && ls
Respondeu 06/04/2018 em 18:38
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more