研究ブログ

研究ブログ

LightLDA

LightLDA
公式
http://www.dmtk.io/lightlda.html
https://github.com/Microsoft/LightLDA
論文
http://www.www2015.it/documents/proceedings/proceedings/p1351.pdf
Ubuntuへのインストールについて

これでもうまくいかない場合:
zmq.hppの古いバージョンを下記ディレクトリに
https://raw.githubusercontent.com/zeromq/cppzmq/014628c/zmq.hpp
-> LightLDA/multiverso/src/multiverso

 

doc_topic.0:文書のトピック分布(文書ID トピックID:頻度 ...)
server_0_table_0.model:単語のトピック分布(単語ID トピックID:頻度 ...)
server_0_table_1.model:server_0_table_0.modelの要約(トピックID:頻度 ...)頻度は0.modelのトピックIDごとの総和
LightLDA.NNNNN.log:ログ
*「頻度」と書いたものは,より適切な表現があると思う。なお,thetaやbetaという確率分布をつくるなら,doc*k,vov*kの行列をつくり,事前のalpha, betaで埋めて,0.modelとかの値を加算し,正規化するという手順になると思われる。
 
 
持橋先生によるwrapper
http://chasen.org/~daiti-m/dist/lightlda.sh/
"model['beta']" is VxK matrix of beta parameter : 正規化は不要
K(列)ごとにsumをとるとほぼ1になる。
*要注意: feature_id is an integer from 0 (1から始めると行数列数はあっているがおかしなことになる)
 
 
javaバージョン
https://www.jianshu.com/p/346a9edf8f80
 
 
 

lightldaの細かい手順

1:持橋先生のサイトにあるように,gitで落としてくる
http://chasen.org/~daiti-m/dist/lightlda.sh/

2:岩瀬様が言及しているようにzmq.hppの古いバージョンを以下から手にい入れて
https://raw.githubusercontent.com/zeromq/cppzmq/014628c/zmq.hpp
次のディレクトリに保存
LightLDA/multiverso/src/multiverso
https://researchmap.jp/blogs/blog_entries/view/114976/5f18a9bea91f2ed203240dc6d29d577c?frame_id=796275
build.shの以下はコメントアウト
git clone -b multiverso-initial git@github.com:Microsoft/multiverso.git

3:gccやpython2を始めとした以下が入っているか要確認(aptで入れる)
libopenmpi-dev openmpi-bin build-essential cmake git
g++ gcc
https://github.com/microsoft/Multiverso
https://www.jianshu.com/p/0d1460309a95

4:multiverso/third_party/install.shの10行目を以下のように編集
wget http://download.zeromq.org/zeromq-4.1.3.tar.gz
を置換して
wget https://github.com/zeromq/zeromq4-1/releases/download/v4.1.3/zeromq-4.1.3.tar.gz

5:multiverso/MakefilのCXXFLAGSを編集して最後に-pthreadをつける(前の行の最後に\を忘れない)
CXXFLAGS = -O3
-std = c ++ 11
-Wall
-Wno-sign-compare
-fno-omit-frame-pointer
-fpermissive
-pthread

6:build.shの3行目にある以下をコメントアウト
git clone -b multiverso-initial git@github.com:Microsoft / multiverso.git

7:sh buid.shでインストールを開始するが,中身を逐次やったほうがエラーを発見しやすい

8:最後まで終わったらパスの追加
sudo vim /etc/ld.so.conf
で中身に
/home/.../lightlda/multiverso/third_party/lib
を追記(冒頭にincludeはいらない)
sudo ldconfig
で参照されるキャッシュを更新

9:exmapleにあるnytimesを開いて,pythonのバージョンを編集(python2)したりしたらsh nytimes.shを実行
結果がうまく行っていればインストール完了!!

https://webcache.googleusercontent.com/search?q=cache:BkDyzWfdgKoJ:https://www.dazhuanlan.com/cherish2014/topics/1561068+&cd=3&hl=ja&ct=clnk&gl=jp
 
 
0

[link] python, xml

Dive Into Python 3 日本語版
http://diveintopython3-ja.rdy.jp/

Tutorials on XML processing with Python
https://wiki.python.org/moin/Tutorials%20on%20XML%20processing%20with%20Python

Pythonで前処理。ニコニコ動画のタグ検索結果をCSV形式に変換する
https://qiita.com/nezuq/items/eedfce32ade1bab8f94f

xmlからcsvへの変換(xsltprocコマンド)
https://qiita.com/HisayukiYokota/items/89e314057671d0caf432

Python & XML
0