728x90
반응형
자연어처리
자연어는 자연 언어라고도 부르며 사람들이 쓰는 언어활동을 위해 자연히 만들어진 언어를 의미한다. 자연어 처리는 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술을 의미한다. 자연어 처리 모델을 개발하기 위해서는 모호성, 가변성, 구조 문제를 해결해야 한다. 위와 같은 문제를 이해하고 구분할 수 있는 모델을 만들기 위해서는 말뭉치(Corpus)를 일정한 단위인 토큰(Token)으로 나눠야 한다. 말뭉치는 뉴스 기사, 사용자 리뷰 등에서 목적에 따라 구축되는 텍스트 데이터를 의미한다. 토큰은 개별 담어나 문장부호 같은 텍스트를 의미하며 말뭉치보다 더 작은 단위다. 말뭉치를 토큰 단위로 나누는 것을 토큰화라고 한다. 토큰화를 위해 토크나이저라는 것을 사용한다. 이 과정을 익히기 위해 파이썬 언어를 활용하여 실습을 진행해 보았다. 관련 파이썬 실습 코드를 아래에서 확인해 보자. [파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전] 책을 참고하여 파이썬 자연어처리 실습을 진행했다.
토큰화 실습(Python) 코드
1 단어 및 글자 토큰화
1) 단어 토큰화
2) 글자 토큰화
3) 자소 단위 토큰화
2 형태소 토큰화
1) KoNLPy
2) NLTK
3) spaCy
3 하위 단어 토큰화
1) 토크나이저 모델 학습(sentencepiece, Korpora)
2) 토크나이저 모델 학습(tokenizers)
전체 실습 코드 실행 영상
도서 구매 링크: 파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습(https://wikibook.co.kr/pytorchtrf/)
728x90
반응형