Skip to content

Releases: bab2min/Kiwi

0.17.1

13 Apr 12:10
e91047b
Compare
Choose a tag to compare

신기능

  • 연철에 대한 오타 교정 추가 (#159)

버그 수정

  • 문장 분리 오류 수정 (#160)

0.17.0

09 Mar 17:05
Compare
Choose a tag to compare

신기능

  • AutoJoiner에서 결합 후 형태소들의 위치 정보를 반환하도록 개선
  • 공백이 포함된 형태소를 등록할 수 있도록 사전 기능 확장
  • 공백 문자 정규화 기능 추가(U+00A0을 비롯한 다양한 유니코드 공백 문자가 공백 문자로 제대로 처리됨)
  • 약 25만 종의 어휘가 포함된 기본 다어절 고유 명사 사전(multi.dict)이 추가됨. 다어절 사전 로딩 유무를 선택할 수 있도록 BuildOption::loadMultiDict 열거형 추가
  • IOException, FormatException가 추가되어 Kiwi가 좀 더 명확한 예외를 선택하여 던지도록 수정

버그 수정

  • 공백 없이 긴 텍스트를 입력했을때 속도가 느려지거나 크래시가 발생하는 버그 수정
  • 일련번호(W_SERIAL) 추출 시 종종 마지막에 공백 문자가 포함되던 버그 수정

0.16.1

30 Jan 13:17
d70cf2f
Compare
Choose a tag to compare
  • -다.로 끝나는 문장의 어미들이 SB태그로 과도하게 잘못 분석되던 오류 수정
  • KiwiJava에서 topN 인자가 제대로 반영되지 않던 버그 수정

0.16.0

31 Aug 07:47
Compare
Choose a tag to compare

기능 추가/개선

  • 부분적으로 분석된 텍스트 처리를 위한 PretokenizedSpan 기능 구현 & Kiwi::analyzepretokenized 인자 추가
  • 사용자 정의로 쓸 수 있는 user0~4 태그 추가
  • 순서 있는 글머리를 위한 sb 태그 추가
  • Java용 바인딩인 KiwiJava 제공 (실험적)

버그 수정

  • 다양한 문장 분리 오류 수정

Full Changelog: v0.15.2...v0.16.0

v0.15.2

14 Jun 12:28
Compare
Choose a tag to compare

기능 개선

  • Joiner::add에서 결합시 띄어쓰기 포함 유무를 선택할 수 있는 옵션 인자 추가

버그 수정

  • 매우 긴 텍스트를 분석할 때 시작 지점이 잘못 나오는 버그 수정
  • U+10000 이상의 문자가 여러 개 포함된 텍스트를 SwTokenizer로 encode할때 offset이 누락되는 버그 수정

0.15.1

07 May 09:33
d0e3348
Compare
Choose a tag to compare
  • SwTokenizer 기능 중 미완성이었던 기능들의 구현 완료
  • SwTokenizer, UnigramSwTrainer의 각종 버그 수정

0.15.0

22 Mar 17:16
Compare
Choose a tag to compare

기능 추가/개선

  • 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인 splitComplex 도입
  • 부사파생접사를 위한 XSM 태그 추가 및 이에 해당하는 형태소 -이, -히, -로, -스레 추가
  • 조사/어미에 덧붙는 받침을 위한 Z_CODA 태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가
  • 형태 분석 및 언어 모델 탐색 속도 최적화
  • 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
  • 형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
  • 문장 분리 성능 개선
    • 2010. 01. 01. 와 같이 공백이 포함된 serial 패턴 처리 보강
    • Dr., Mr. 와 같이 약자 표현의 .이 마침표로 처리되지 않도록 보강
    • '-음'으로 문장이 끝나는 경우를 판별하기 위해 음/EF 형태소 추가 및 모델 보강

버그 수정

  • 한 문장 내에서 사전에 미등재된 형태가 256개 이상 등장할 때 형태소 분석 결과가 잘못 나오는 문제 해결
  • bab2min/kiwipiepy#111
  • 이모지 등 U+10000 이상의 유니코드 문자를 모두 한자로 분류하던 버그 수정

0.14.1

23 Dec 16:26
Compare
Choose a tag to compare

버그 수정 및 개선

  • 특정 텍스트에 대해 형태소 분할 없이 전체 결과를 그대로 반환하는 오류 해결 (#114)
  • EF 뒤에 보조용언이 따라오는 경우 문장을 분리하지 않도록 개선 (bab2min/kiwipiepy#96)

새로운 기능

  • SBG 모델 학습 편의를 위한 HSDataset 추가
  • macOS에서 컴파일 시 CMakeLists에서 CPU 아키텍처를 설정하는 옵션 추가

v0.14.0

01 Sep 15:24
Compare
Choose a tag to compare

기능 개선

  • 이르다(일렀다, 이르렀다)의 모호성 해소 (#54)
  • 연속된 숫자열을 처리하는 W_SERIAL 태그 추가 (#14)
  • 따옴표, 괄호의 태그를 여는 태그(SSO)와 닫는 태그(SSC)로 세분화 (#104)
  • 문장 분리 시 인용문으로 안긴 문장을 인식하도록 수정(bab2min/kiwipiepy#84)
  • 랬/댔/잖 의 분석 정확도 개선
  • #110
  • 내장 오타 사전 typo.dict 추가. 내장 오타 사전의 로드 유무를 설정하는 옵션 BuildOption::loadTypoDict 추가

버그 수정

Kiwi v0.13.1

05 Jul 13:25
78d540d
Compare
Choose a tag to compare

버그 수정

  • AutoJoiner에 특정 문자열을 입력 시 크래시가 발생하는 버그 수정