자연어처리
자연어는 자연 언어라고도 부르며 사람들이 쓰는 언어활동을 위해 자연히 만들어진 언어를 의미한다. 자연어 처리는 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술을 의미한다. 자연어 처리 모델을 개발하기 위해서는 모호성, 가변성, 구조 문제를 해결해야 한다. 위와 같은 문제를 이해하고 구분할 수 있는 모델을 만들기 위해서는 말뭉치(Corpus)를 일정한 단위인 토큰(Token)으로 나눠야 한다. 말뭉치는 뉴스 기사, 사용자 리뷰 등에서 목적에 따라 구축되는 텍스트 데이터를 의미한다. 토큰은 개별 담어나 문장부호 같은 텍스트를 의미하며 말뭉치보다 더 작은 단위다. 말뭉치를 토큰 단위로 나누는 것을 토큰화라고 한다. 토큰화를 위해 토크나이저라는 것을 사용한다. 이 과정을 익히기 위해 파이썬 언어를 활용하여 실습을 진행해 보았다. 관련 파이썬 실습 코드를 아래에서 확인해 보자. [파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전] 책을 참고하여 파이썬 자연어처리 실습을 진행했다.
토큰화 실습(Python) 코드
1 단어 및 글자 토큰화
1) 단어 토큰화

2) 글자 토큰화

3) 자소 단위 토큰화


2 형태소 토큰화
1) KoNLPy



2) NLTK




3) spaCy


3 하위 단어 토큰화
1) 토크나이저 모델 학습(sentencepiece, Korpora)






2) 토크나이저 모델 학습(tokenizers)



전체 실습 코드 실행 영상
도서 구매 링크: 파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습(https://wikibook.co.kr/pytorchtrf/)
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습: 실전 프로젝트와 최신 알고
트랜스포머는 딥러닝 분야에서 성능이 우수한 모델로 현대 인공지능 분야의 핵심 기술입니다. 트랜스포머와 비전 트랜스포머 기술을 습득하면 차별화된 역량을 갖출 수 있고 복잡한 문제를 해
wikibook.co.kr
'AI > DEEP LEARNING' 카테고리의 다른 글
| [DEEP LEARNING] 1. 딥러닝이란 무엇인가 ? (1) | 2021.10.13 |
|---|