のんびりしているエンジニアの日記

ソフトウェアなどのエンジニア的な何かを書きます。

ニコニコデータセットでタグ一覧を作る

Sponsored Links

皆さんこんにちは
お元気ですか。私は元気です。今から実家に帰ります。

前回、ニコニコ動画データセットの集計を行いました。
今回はそのニコニコデータセットでタグの一覧を作ってみましょう。

import json
import gzip
import os
import sys

def createWordDict():
	dicts = {}
	movie_num = 0
	data_dir = sys.argv[1]
	for file in os.listdir(data_dir):
		if file.endswith(".dat.gz"):
			print file, len(dicts)
			filepath = os.path.join(data_dir,file)
			for line in gzip.open(filepath):
				jsonData = json.loads(line)
				for tag in jsonData["tags"]:
					if not tag["tag"] in dicts:
						dicts[tag["tag"]] = 0
	return dicts,movie_num

dicts = createWordDict()

f = open("tag_list.txt","w")
for key,value in dicts.items():
	f.write("%s\n" % key.encode('utf-8'))
f.close()

このプログラムを実行すると数多い、ニコニコ動画のタグを生成することができます。
メモリの管理や実行時間上、タグ生成データを一時的に保存して置かなければ、色々と不便なところがあるので、今回はそうさせて頂いております。

実は、読み込んで辞書に登録して、出力するだけの簡単なプログラムです。
よければお使いください。