본문 바로가기

반응형

전체 글

(112)
웰씽킹 - 캘리 최 #부자로 만들어주는 생각 자기개발서는 지난 15년 동안 내게 엄청난 변화를 주었지만 그 사실을 타인에게 얘기하기엔 꺼려지는 부분이 있다. “이미 다 알고, 뻔한 내용인데 그런 걸 왜 읽냐”라는 타박을 들어본 적도 있고, 특히 책 좀 읽어봤다 하는 사람들 중에서는 종종 혐오감을 내비치는 사람들도 봤었기 때문이다. 비웃음을 당할까 봐 두려운 마음에 “저는 그렇게 생각하지 않는데요?” 라고 구태여 얘기하지 않았었다. 그러다가 약간 마음을 달리 먹게 된 건 이 책을 읽으며 나에게 만큼은 자기개발서가 확실한 도움이 된다는 것을 새삼 느꼈기 때문이다. 작년에 나는 인생에 방향을 잃고, 방황하고, 뭘 해도 재미없어하고, 괴로워하는 상태였었다. 나를 잘 아는 주변사람, 조금 더 살아 본 사람들, 사회적으로 권위가 사람들 등 많은 사람들에게 조..
워드 투 벡터 (Word2Vec) 텍스트를 수치화시키기 위해 기존 마이닝, 학습시키기 위해서 인코딩 방법을 사용 그 중, 원-핫 인코딩은 단어 집합의 크기를 벡터의 크기로 표현하고, 표현하고자 하는 단어의 인덱스에 1 값을 부여하고 나머지는 0으로 표현하는 벡터 표현 방식 예를 들면, 단어 집합이 다음과 같이 있다고 치자. "고양이, 예쁨, 강아지, 귀여움, ... 기타, 플레이 " 중략된 단어를 포함하여 단어가 100개가 있을 때, 고양이 하나의 단어 하나에 대한 원 핫 인코딩은 다음과 같다. [ 1 0 0 0 0....(중략).... 0 0 0 ] 맨 처음 고양이에 대한 인덱스 1이고 나머지는 0으로 표현 예쁨을 표현하기 위한 원핫 인코딩은 다음과 같다 [ 0 1 0 0 0 ... (중략) ... 0 0 0] ※ 이렇게 데이터 표현을..
칠갑산 - 충남청양 #오늘도 새치기를 당했다 날씨 - 3도쯤 바람이 매섭고 차가웠다. 등산 차림 : 상의는 안에 요가 반팔복, 그 위에 요가 긴팔 , 바람막이, 그 위에 누빔 패딩 입었는데 적당했다. 모자랑 장갑은 가져올 걸 ㅜㅜ 손이랑 귀가 시려웠다 등산코스 : 천창호출렁다리 ~ 정상 ~ 장곡사 ~ 장곡주차장 산 난이도 : 편안함 (청계산 수준?) 죄다 흙길이고, 경사 있는 곳은 초반 계단 뿐이다 한 길만 나 있어서 잃을 염려는 없다 단, 하산길에 삼형제봉 쪽과 장곡사 쪽 두 갈림길이 나오는데, 어딜 가도 장곡주차장 쪽으로 빠질 수 있다. 산행 시간 : 3시간 50분 (휴식시간 포함) 입하산 길에 음식점 및 매점이 잘되어있다 안내 산악회 버스를 타고 천창호 출렁다리에서 내렸다. 다른 산들과 달리 입산부터 볼 관광객을 위한 매점이나 산책로가 잘 되..
판탈레온과 특별봉사대 - 마리오 바르가스 요사 줄거리 요약 판탈레온 판토하는 대위 승격과 함께 기밀업무를 배정받는다. 이키토스의 군인들이 성욕을 주체하지 못해 주민들을 겁탈하는 횟수가 증가하자 군인들을 위한 특별봉사대, 즉, 매춘부대를 꾸려 운영하라는 지시가 내려진 것이다. ‘천부적인 조직력, 정확하고 엄밀한 질서의식. 행정능력. 그 어떤 나쁜 습관도 없는’ 판토하는 이 업무를 훌륭하게 수행해 낸다. 업소를 매입하고, 필요한 여자의 수를 산정하고, 여자를 모집하는 데 그치지 않고 품질 검증까지 한다. 사업은 군인들의 정욕으로 인해 나날이 번성한다. 육군에서 해군으로. 일반 사병에서 부사관으로. 그리고 그 지역 최고 갈보인 미스 브라질을 영입하면서 특별봉사대 사업은 정점을 찍는다. 특성상 이키토스라는 작은 지역에서 기밀리에 진행되긴 어려울 터. 라는 ..
대둔산 1코스로 감 바위가 너무 많은 산이었다. 정상 부근에서는 바위에 이끼가 많아서 미끄러웠다.. 스키를 한 4번 탄 듯.. 차라리 1코스 반대방향으로 수락주차장에서 올라가서 케이블카 타고 내려오는 게 내 무릎의 안녕을 지키는 길 같다.. 올라가는 길에서 헷갈릴 만한 길은 케이블카 있는 요곳 뿐 같다. 케이블카가 있는 계단으로 쭉 올라가면 정상으로 가는 등산로가 있다. 여기는 정상석이 아닌 탑이 있다. 블야 인증은 여기서 진행하면 된다. 올라가는 길보다 내려가는 길이 더 복잡했다. 산에서 엉뚱한 곳으로 잘 가는 편인데 한 두번 정도 짧게 되돌아왔어야 했다. 가끔 저멀리 형광색 등산복을 입은 아저씨들을 이정표로 삼아 길을 찾았다. 산타다 보면 가끔 아저씨들이 형광색 비까뻔쩍한 등산복을 입은 걸 볼 수 있다. 볼..
[자연어처리] 3. TF-IDF 벡터 주어진 단어가 해당 문서에서 얼마나 중요한가? 단어 중요도 표현 방법 단어 모음 N그램 모음 TF-IDF 벡터 2-1. 단어 모음 단어 빈도 가정 : 많이 나오는 단어가 중요할 것이다. from collection import Counter bag_of_words = Counter(tokens) bag_of_words.most_common(10) #빈도순 나열 2. 벡터화 기준이 필요 정규화된 용어 빈도 필요 공통 공간안의 위치 고려 벡터의 길이 차원 표준화 공통 공간을 위한 어휘집, 어휘사전 필요 차원을 줄여야 유사도로 비교가 가능함 두 문서의 벡터 표현들이 비슷하면 두 문서는 비슷 코사인 유사도 (유클리드 내적 공식에서 유도) -1~+1 범위 내적을 두 벡터의 길이에 맞게 정규화 1 : 모든 차원에서..
[자연어처리] 2. 감정 분석 감정 분석은 중요하면서도 가장 어려운 부분이라고 생각합니다. 텍스트 마이닝은 결국 사람들의 글을 모아서 글들을 취합하고 통계내는 과정인데 그를 통해서 결과적으로 긍정적인 반응이 많은지, 부정적인 반응이 많은지가 알고 싶어하기 때문에 중요한 부분이 될 것 입니다. 그러나, 단어만 보고 단순하게 긍/부정을 판단하면 오해의 소지가 생길 수 있습니다. 앞 뒤 맥락을 이해하지 못해 비꼬는 말투를 긍정으로 보게 될 수도 있고, 사람의 어투에 따라 긍정의 반응을 부정으로 해석하는 경우도 종종 발생하기 때문입니다. 아래 이론은 실제 실무에서 적용하기에는 어려운 부분이 있지만, 감정 분석의 기초가 되는 부분이라서 한 번 숙지해둘 필요는 있어 보입니다. 2. 감정분석 [접근방식] ① 사람이 작성한 규칙 기반 알고리즘 사용..
[자연어처리] 1. 단어 토큰화 분석 데이터를 수집하였으면 가장 먼저 하게 될 일은 토큰화를 통해 어떤 단어들이 나오는지 보고, 도메인 지식을 통해 누락되거나 빠진 어휘를 살펴보며 추가하는 일일 것입니다. 산업마다 사용하는 단어가 다르며, 이것들이 오픈되어있는 API 소스에는 분명히 누락되어 있을 것이기 때문입니다. 그러면 단어 토큰화 하는 과정과 & 어휘 구축에 대한 개념과 분석 시 python으로 사용할 수 있는 패키지에 대해 알아보도록 하겠습니다. 1. 단어 토큰화 텍스트를 다수의 단어, n-그램(토큰)으로 분할 비표준 문장 부호와 임티 (sns) 다루기 어간 추출, 표제어 추출로 토큰 어휘 단축 문장의 벡터 표현 구축 사람이 직접 지정한 토큰 점수들에 기초한 감정 분석기 구축 어휘 구축 [순서] 토큰 → 어간 추출 → 단어 모음..