nlp-embedding-tutorial

Embedding Model Study

소개

일반적인 컴퓨터에서 한글 위키피디아 데이터를 전처리(불필요한 문자 제거, 형태소 분석기를 통한 구분 등)하기엔 사양이 부족하기 마련입니다. 그렇기 때문에, 한국어 질의응답 데이터(KorQuAD)를 바탕으로 데이터를 전처리하고 임베딩 모델을 구축하였습니다.

부족하겠지만 개인 공부 용으로 충분할 것이라고 생각됩니다.

코드 실행 방법

pip3 install -r requirements.txt

이 과정에서 만약 Konlpy 관련 설치 에러가 발생한다면 제 블로그 글을 참고해주세요.

python3 preprocess_main.py --corpus_path --output_path --mode

형태소 분석기 통하여 전처리를 하기 전에 우선 데이터를 따로 갖추어놓아야합니다. 그럴 때는 python3 preprocess_main.py --corpus_path <질의응답_파일.json> --output_path <output_path/filename> --mode preprocess 를 해주세요. 그 이후에, python3 preprocess_main.py --corpus_path <전처리.txt> --output_path <output_path/filename> --mode tokenize 를 하면 형태소 분석기를 통한 전처리를 거친 텍스트 파일이 나옵니다.

본 저장소에서는 Mecab 을 사용하였습니다.

python3 embedding.main.py --corpus_path --output_path --size

size 는 임베딩 모델의 차원을 의미합니다. 현재는 Word2Vec 만을 학습할 수 있습니다.

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
rsc		rsc
.gitignore		.gitignore
README.md		README.md
corpus_utils.py		corpus_utils.py
embedding_main.py		embedding_main.py
intro_embedding.ipynb		intro_embedding.ipynb
preprocess_korquad_main.py		preprocess_korquad_main.py
preprocess_wiki_main.py		preprocess_wiki_main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

rsc

rsc

.gitignore

.gitignore

README.md

README.md

corpus_utils.py

corpus_utils.py

embedding_main.py

embedding_main.py

intro_embedding.ipynb

intro_embedding.ipynb

preprocess_korquad_main.py

preprocess_korquad_main.py

preprocess_wiki_main.py

preprocess_wiki_main.py

requirements.txt

requirements.txt

Repository files navigation

nlp-embedding-tutorial

소개

코드 실행 방법

About

Releases

Packages

Languages

JudePark96/nlp-embedding-tutorial

Folders and files

Latest commit

History

Repository files navigation

nlp-embedding-tutorial

소개

코드 실행 방법

About

Topics

Resources

Stars

Watchers

Forks

Languages