Pandas trama de dados de estatísticas por id de linha

votos
0

Eu estou trabalhando em uma pesquisa e eu criei uma trama de dados com colunas de identidade, db_keywords, new_words, count_new_words. Na coluna new_words tenho palavras que não estão nos db_keywords coluna e nas count_new_words contar de novas palavras. Eu usei describe()com count_new_words coluna para ter estatísticas básicas. Eu gostaria de usar algum método para ter estatísticas por linha (id). Eu preciso de algum valor ou algumas métricas por exemplo quantas novas palavras por id não estão presentes em nosso banco de dados Portanto, neste caso db_keywords. Isso pode ser qualquer método, porque eu não sei como abordar este problema. Criei uma trama de dados de teste semelhante apenas para visualizar o meu problema.

Exemplo:

data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]] 

df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words']) 

df 

I Wold gostaria de saber, por exemplo, o que é o vale adicional para id 1 com apenas uma palavra na coluna db_keywords e encontramos duas novas palavras apresentadas na coluna new_words. Como devo calcular e apresentar isso?

Publicado 13/02/2020 em 21:54
fonte usuário
Em outras línguas...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more