九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
大規(guī)模數(shù)據(jù)存儲與讀取

import dask.bag as db

import ujson as json

import pandas as pd

import numpy as np

import gzip

import re

b=db.read_text(r'F:/kaggle_dataset/亞馬遜評論/reviews_Digital_Music_5.json.gz',encoding='utf-8').map(json.loads)

b.take(1)

print(sum([1 for _ in gzip.open(r'F:/kaggle_dataset/亞馬遜評論/reviews_Digital_Music_5.json.gz')])) #統(tǒng)計多少條數(shù)據(jù)

tempDir = 'F:/kaggle_dataset/亞馬遜評論/制作亞馬遜用戶評論詞云'

stopwords=set(pd.read_csv('C:/Users/zhangshuai_lc/stopwords_en.txt',header=None)[0])

pattern = re.compile(r'\w+') #正則

def hashFile():

   temp_path_list = []

   for i in range(1,101):

       temp_path_list.append(open(tempDir+'/'+str(i)+'.txt',mode='w')) #構造100個文本文件路徑

   for each in (gzip.open(r'F:/kaggle_dataset/亞馬遜評論/reviews_Digital_Music_5.json.gz')):

       sentence = eval(each)    #字符串轉(zhuǎn)字典

       words = sentence['reviewText']

       words_list = pattern.findall(words)

       #print(words_list)

       for word in words_list:

           if word.lower() not in stopwords and len(word) >= 2:

               word = word.lower()

               temp_path_list[hash(word)%100].write(word+'\n')   #對單詞進行hash,相同的單詞一定會hash到同一個文件中

   for f in temp_path_list:

       f.close()

hashFile()

這一步是要將亞馬遜用戶對音樂的評論從原始數(shù)據(jù)中提取出來,然后使用正則表達式將評論分詞,然后進行哈希映射將所有單詞分配到100個文本文件中存儲。相同的單詞一定會被分配到同一個文件當中。

import os

from collections import Counter

results = Counter()

for root, dirs, files in os.walk(r'F:/kaggle_dataset/亞馬遜評論/制作亞馬遜用戶評論詞云'):

    for file in files:

        with open(os.path.join(root, file)) as f:

            words_list = f.readlines()

            words_list = list(map(lambda x: x.strip('\n'),words_list))

            word_common_1000 = Counter(words_list).most_common(1000)

            results.update(word_common_1000)

將每個文件中出現(xiàn)頻率最高的1000個單詞存入results當中。使用堆統(tǒng)計results當中出現(xiàn)頻率最高的100單詞。

import heapq

words_fren_list = list(results.keys())

words_fren_list_100 = heapq.nlargest(100,words_fren_list,key = lambda x:x[1])

len(words_fren_list_100)

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Faker庫 | 生成實驗數(shù)據(jù)
Dataset之RentListingInquries:RentListingInquries(Kaggle競賽)數(shù)據(jù)集的簡介、下載、案例應用之詳細攻略
下載kaggle數(shù)據(jù)集的小妙招
僅需10分鐘:開啟你的機器學習之路
使用HOG對衛(wèi)星圖像中的船舶進行分類
Python數(shù)據(jù)可視化編程實戰(zhàn)——導入數(shù)據(jù)
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服