ニコニコデータセットでタグ一覧を作る
Sponsored Links
皆さんこんにちは
お元気ですか。私は元気です。今から実家に帰ります。
前回、ニコニコ動画データセットの集計を行いました。
今回はそのニコニコデータセットでタグの一覧を作ってみましょう。
import json import gzip import os import sys def createWordDict(): dicts = {} movie_num = 0 data_dir = sys.argv[1] for file in os.listdir(data_dir): if file.endswith(".dat.gz"): print file, len(dicts) filepath = os.path.join(data_dir,file) for line in gzip.open(filepath): jsonData = json.loads(line) for tag in jsonData["tags"]: if not tag["tag"] in dicts: dicts[tag["tag"]] = 0 return dicts,movie_num dicts = createWordDict() f = open("tag_list.txt","w") for key,value in dicts.items(): f.write("%s\n" % key.encode('utf-8')) f.close()
このプログラムを実行すると数多い、ニコニコ動画のタグを生成することができます。
メモリの管理や実行時間上、タグ生成データを一時的に保存して置かなければ、色々と不便なところがあるので、今回はそうさせて頂いております。
実は、読み込んで辞書に登録して、出力するだけの簡単なプログラムです。
よければお使いください。