对于上亿数据使用python进行分块处理.docx

发布时间：2022-06-03 发布人：admin 分类：说明书资料大小：0.02M 资料格式：docx 举报版权申诉

qq_38512995-10618173-4744300845226284901.docx.pdf-第1页.png

第1页 / 共1页

文本预览

f = open('训练数据集2时间处理后.csv') reader = pd.read_csv(f, sep=',', iterator=True) loop = True chunkSize = 10000000 chunks = [] newdata =[] while loop: try: chunk = reader.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop = False print("Iteration is stopped.") for s in chunks: dataset=s.values my_maxtrix=[] for k in dataset: aa=[] for j in k: aa.append(j) my_maxtrix.append(aa) line=len(my_maxtrix) v=1000 for i in range(int(line/v)): newdata.append(my_maxtrix[random.randrange(i*v,(i+1)*v,1)]) newdata.append(my_maxtrix[random.randrange(int(line/v)*v-1,line,1)]) with open("训练数据集1随机挑选.csv","w", newline='') as csvfile: writer = csv.writer(csvfile) writer.writerow(["ip","app","device","os","channel","click_time","is_attributed"]) writer.writerows(newdata) csvfile.close()

分享到：

赞收藏

资料库

对于上亿数据使用python进行分块处理.docx

相关推荐

大数据

热门标签

最新资料