split()
문자열을 list로 나누어주는 함수이다. 문자열을 나누는 기준이되는 separator를
매개변수로 받는다.
string.split(separator, maxsplit)
tweets = "thank you welcoming ceremony it will always be remembered"
def break_into_words(text):
words = text.split(' ')
return words
print(break_into_words(tweets))
split()과 split(' ')의 차이
spllit()은 문자열 안에 공백이 여러개있거나, Tab, enter같은 공백도 다 하나로
처리해서 나누고, split(' ') 은 ' '안에 공백이 하나면, 공백 하나를 기준으로
문자열을 나누기 때문에 용도에 따라서 정확하게 사용해야 한다.
append()
list에 새로운 원소를 추가하기 위해 사용하는 함수이다.
tweets = ['a', 'is', 'back', 'and', 'we', 'are', 'coming', 'back']
def make_new_list(text):
new_list = []
for i in range(len(text)):
if text[i].startswith('b'):
new_list.append(text[i])
return new_list
new_list = make_new_list(tweets)
print(new_list)
lower()
영어 대문자를 소문자로 전부 변환해 return해주는 함수이다.
tweets = [
"FAKE NEWS - A TOTAL POLITICAL WITCH HUNT!",
"Any negative polls are fake news, just like the CNN",
"The Fake News media is officially out of control.",
]
def lowercase_all_characters(text):
processed_text = []
for i in range(len(text)):
processed_text.append(text[i].lower())
return processed_text
print('\n'.join(lowercase_all_characters(tweets)))
replace()
데이터를 분석할 때 문자에 특수문자가 포함되어 있으면 판단하기가 어렵기
때문에 항상 사용되는 함수이다. christmas'
,
christmas,
, christmas!!!
같은 문자열에서
',! 같은 특수문자를
제거하거나, 다른 문자로 치환할 때 사용한다.
리스트의 문자열 요소에서 쉼표, 작은따옴표, 느낌표를 제거하는
remove_special_characters()
함수를 구현하면 아래와 같다.
def remove_special_characters(text):
processed_text = []
for i in range(len(text)):
processed_text.append(text[i].replace(',', '').replace("'", '').replace('!', ''))
return processed_text