のんびりしているエンジニアの日記

ソフトウェアなどのエンジニア的な何かを書きます。

自然言語処理

日本語自然言語処理のData Augmentation

皆さんこんにちは お元気ですか。週末の発表資料も作っています。本記事は自然言語処理アドベントカレンダー第13日です。qiita.com画像処理ではデータをアフィン変換などで変形して、 画像を拡張する処理(=Data Augmentation)が知られています。 変換など…

Pythonで自然言語処理のタスクをやってみる。

皆さんこんにちは お元気ですか。アドベントカレンダー真っ盛りですね。 本日は「python Advent Calendar 2017」のアドベントカレンダー第5日です。qiita.com自然言語処理には様々なライブラリ(NLTKやCoreNLP)があります。 せっかくの機会として、本記事で…

友利奈緒らしさとは何か。

友利奈緒の皆さんこんにちは。 お元気ですか?私は元気です。これは、友利奈緒アドベントカレンダー24日目の記事です。 www.adventar.org今日は友利奈緒らしさについて追求していきます。 世の中友利奈緒を降臨させようとする方々は沢山いらっしゃると思い…

Word Embedding using GloVe

GloVeについて調べてみた。 皆さんこんにちは。お元気ですか。先日、EMNLP勉強会@PFIに行ってきました。 専門とは異なるので、普段聞けない話が聞けてよかったですね。 個人的にはRNN,LSTMがどう使われているのか、 Word Embeddingが流行していたそうだとい…

Gensimを使った自然言語処理

皆さんこんにちは お元気ですか。私は元気です。今日はGensimを使い、自然言語処理を行います。 Install sudo pip install gensim 基本的なプロセス まず、学習処理ですが 基本的にはCorpusを作成する⇒ベクトルに変換する⇒何らかの処理をする(LSI,LDAとか)…

マルコフ連鎖で自動的に文章を生成してみた

皆さんこんにちは お元気ですか。私は二郎食べたいと思ったり、思わなかったりです。今日はマルコフ連鎖を使って、文章の自動生成を行いたいと思います。 マルコフ連鎖とは? マルコフ連鎖は、一連の確率変数 X1, X2, X3, ... で、現在の状態が決まっていれ…

Scikit learnで行う文章の特徴ベクトルの抽出

皆さんこんにちは お元気ですか。私は元気です。今日は、Scikit learnを使って、お手軽に文を特徴ベクトルに変換してみます。 どんな時に使うのか? ある文章、例えば、This is a pen(①)とThat is a pen(②)を機械学習で学習させるとき、 基本的に文字を…