GitHub - Frances255/ELMo-chinese: Deep contextualized word representations 中文汉语

ELMo-chinese

Deep contextualized word representations 中文汉语

只是输出 context-independent 的word embedding

requirements

python3

tensorflow >= 1.10

jieba

使用方法

1, 准备数据，参考data文件夹和vocab文件夹，可用pre_data下的vocab.py处理出词典（每个data文件不要太大，否则内存不够）

2, 训练模型 train_elmo.py

3, 输出模型 dump_weights.py

4, 把options.json里的261改成262

5, 输出word embedding到hdf5文件 usage_token.py

实验结果

用可视化工具看合理

textmatch任务提升AUC 1-2

License

MIT.

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
bilm		bilm
bin		bin
data		data
pre_data/code		pre_data/code
tests		tests
vocab		vocab
README.md		README.md
recursive_cut.py		recursive_cut.py
setup.py		setup.py
test.py		test.py
usage_cached.py		usage_cached.py
usage_character.py		usage_character.py
usage_token.py		usage_token.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ELMo-chinese

requirements

使用方法

实验结果

License

About

Releases

Packages

Languages

Frances255/ELMo-chinese

Folders and files

Latest commit

History

Repository files navigation

ELMo-chinese

requirements

使用方法

实验结果

License

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages