Data/🧸 Total

트위터 크롤링

키깡 2021. 3. 24.
728x90

1. 트위터 개발자 가입

트위터 개발자

들어가서 정보를 모두 입력하면,

위와 같은 이미지가 뜬다.
그렇게 가입을 했지만,
7일간의 트위터 글만을 크롤링 가능
+아래와 같이 승인기간을 기다려야함

삼고초려...

2. tweepy 사용

'아동학대예방교육' 검색어에 대한 트윗 크롤링
시간, id, 트윗내용, 하트갯수, 리트윗수를
csv 파일로 우선 저장

import tweepy import config import pandas as pd   # 트위터 Application에서 발급 받은 key 정보들 문자열로 입력 consumer_key = config.twitter_consumer_key consumer_secret = config.twitter_consumer_secret access_token = config.twitter_access_token access_token_secret = config.twitter_access_secret  # 1. 핸들러 생성 및 개인정보 인증요청 auth = tweepy.OAuthHandler(consumer_key, consumer_secret)  # 2. 액세스 요청 auth.set_access_token(access_token, access_token_secret)  # 3. twitter API 생성 api = tweepy.API(auth)  keyword = '아동학대예방교육'  # 검색하고 싶은 키워드 입력 result = []  # 크롤링 텍스트를 저장 할 리스트 변수  for i in range(1, 3):  # 1,2 페이지 크롤링     tweets = api.search(keyword)  # keyword 검색 실시. 결과가 tweets 변수에 담긴다.     result = []     for tweet in tweets:         result.append([tweet.created_at, tweet.id_str, tweet.text, tweet.favorite_count, tweet.retweet_count])     result = sorted(result, key=lambda x : -x[-2]) # 좋아요 수 기준으로 정렬 df = pd.DataFrame(result, columns = ['time', 'id', 'text', 'likey', 'retweet']) print(len(result))  # 크롤링하여 가져온 트윗 개수 print(df)  # 크롤링 결과 확인 df.to_csv('result.csv', encoding='utf-8-sig')

'Data > 🧸 Total' 카테고리의 다른 글

EC2 생성 과정  (0) 2021.04.12
Elastic Search 찾기/갱신/삽입/삭제  (0) 2021.03.23
Elastic Search 실행환경 설정 (ubuntu)  (0) 2021.03.22

댓글