먼저 spacy의 english를 import 한다.
spacy에서 한국어는 아직 지원되지 않으므로 영어로 자연어 처리를 한다. English()객체를 nlp로 만들어준 다음 nlp안에 Hello world!!를 넣는다. for문으로 돌려보면 token.text안에는 각각의 내용들이 들어있다.
from spacy.lang.en import English
nlp = English()
doc = nlp("Hello world!!")
for token in doc:
print(token.text)
span = doc[1:3]
print(span.text)
doc2 = nlp("It is 5coins...")
print("Index : ", [token.i for token in doc])
print("Text : ", [token.text for token in doc])
print("is alpha : ", [token.is_alpha for token in doc])
print("is punct : ", [token.is_punct for token in doc])
print("like_num : , ", [token.like_num for token in doc])
>>Hello
>>world
>>!
>>!
>>world!
>>Index : [0, 1, 2, 3]
>>Text : ['Hello', 'world', '!', '!']
>>is alpha : [True, True, False, False]
>>is punct : [False, False, True, True]
>>like_num : , [False, False, False, False]
spacy의 en_core_web_sm을 이용하면 자연어 토큰 처리를 할 때 쉽게 이용할 수 있다.
import spacy
nlp3 = spacy.load("en_core_web_sm")
doc = nlp3("He opened a windows")
for token in doc:
print(token.text, token.pos_)
>>He PRON
>>opened VERB
>>a DET
>>windows NOUN
'머신러닝 > 딥러닝' 카테고리의 다른 글
CNN의 오토인코더(Autoencoders) (0) | 2021.04.21 |
---|---|
이미지 분할(Image Segmentation), 이미지 증강(Image Augmentation), 객체인식(Object Recognition) (0) | 2021.04.20 |
딥러닝 독학 3) 신경망 학습 (0) | 2021.04.06 |
딥러닝 독학 2) 소프트맥스 함수 (0) | 2021.04.06 |
딥러닝 독학 1)퍼셉트론에서부터 신경망 (0) | 2021.04.06 |