728x90
1. 트위터 개발자 가입
들어가서 정보를 모두 입력하면,
위와 같은 이미지가 뜬다.
그렇게 가입을 했지만,
7일간의 트위터 글만을 크롤링 가능
+아래와 같이 승인기간을 기다려야함
삼고초려...
2. tweepy 사용
'아동학대예방교육' 검색어에 대한 트윗 크롤링
시간, id, 트윗내용, 하트갯수, 리트윗수를
csv 파일로 우선 저장
import tweepy import config import pandas as pd # 트위터 Application에서 발급 받은 key 정보들 문자열로 입력 consumer_key = config.twitter_consumer_key consumer_secret = config.twitter_consumer_secret access_token = config.twitter_access_token access_token_secret = config.twitter_access_secret # 1. 핸들러 생성 및 개인정보 인증요청 auth = tweepy.OAuthHandler(consumer_key, consumer_secret) # 2. 액세스 요청 auth.set_access_token(access_token, access_token_secret) # 3. twitter API 생성 api = tweepy.API(auth) keyword = '아동학대예방교육' # 검색하고 싶은 키워드 입력 result = [] # 크롤링 텍스트를 저장 할 리스트 변수 for i in range(1, 3): # 1,2 페이지 크롤링 tweets = api.search(keyword) # keyword 검색 실시. 결과가 tweets 변수에 담긴다. result = [] for tweet in tweets: result.append([tweet.created_at, tweet.id_str, tweet.text, tweet.favorite_count, tweet.retweet_count]) result = sorted(result, key=lambda x : -x[-2]) # 좋아요 수 기준으로 정렬 df = pd.DataFrame(result, columns = ['time', 'id', 'text', 'likey', 'retweet']) print(len(result)) # 크롤링하여 가져온 트윗 개수 print(df) # 크롤링 결과 확인 df.to_csv('result.csv', encoding='utf-8-sig')
'Data > 🧸 Total' 카테고리의 다른 글
EC2 생성 과정 (0) | 2021.04.12 |
---|---|
Elastic Search 찾기/갱신/삽입/삭제 (0) | 2021.03.23 |
Elastic Search 실행환경 설정 (ubuntu) (0) | 2021.03.22 |
댓글