재미로 해보는 유튜브 본채널 서브채널 컨텐츠 분석👀

chaechae·2023년 9월 29일
0

이번에는 우왁굳님의 본채널 그리고 서브채널에 해당하는 왁타버스 채널의 컨텐츠를 분석해보려고합니다!

제가 정한 과제는 다음과 같습니다!!

  • 수익과 시청자들의 반응 측면에서 바라볼때 어떤 컨텐츠들이 흥하고 있을까?
  • 즉, 수익이 높은 컨텐츠라고 해서 시청자들의 반응도 높을까? 다르지 않을까?

추정 수익 계산

유튜브의 수익모델구조의 대부분이 광고수익 이라는점 알고 계실텐데요👀!

(2021년부터 2023년 8월2일까지 올라온 왁타버스와 본채널 영상들의 데이터 기준입니다.)

단순히 조회수1당 1원으로 계산하지 않고, 편집비용, 노출당비용(CPM), 수수료, 영상규정을 참고해서 최대한 근접하게 계산을 해보려고 노력을 해봤습니다 ㅎㅎ..

광고수익(📎)

노출당비용(CPM: Cost Per Mille)은 광고주가 자신의 광고를 1,000명에게 보여주는 대가로 유튜브에 지불한 광고비를 뜻합니다. 그렇게 광고주들이 지불한 모든 금액을 합한 것을 유튜브 광고 수익(YouTube Ad Revenue)이라고 하며, 노출당비용과 광고 노출수에 따라 정해집니다.

  • CPM = (광고 비용 / 총 노출 횟수) * 1,000
    (유튜브 광고 수익) = (CPM) x (광고 노출수) / 1,000
  • 광고의 유형에 따라 광고 단가가 다르다. (https://m.blog.naver.com/connectree/223077318630) 적게는 3원 부터 100원 까지 있다.
  • (2023년 3월 6일) 유튜브 쇼츠의 CPM은 0.09달러 (120원)
  • 당연하지만 수수료도 있다. 유튜브 광고의 수수료는 광고비의 45%

사실 정말 정확하게 영상수익을 추정하려면 , 그 채널의 나이대 비율, 해외이용자 비율까지 계산해야 하는데요! 해외유저가 광고를 봤을 때 더 광고단가가 더쎄고 나이대별로 나오는 광고가 다르기 때문이라고 합니다! 뿐만 아니라 유투브 프리미엄 구독자도 따로 계산해야하고.. (물론 채널 주인이면 유튜브 스튜디오에 확인을 할 수 있습니다 ㅎㅎ)

그래서 어쩔 수 없이 확인이 불가능 한부분을 제외하고 아래의 가정에 따라 수익을 추정해보려고 합니다!

  • 10명중 6명이 광고를 봤다.
  • cpm 은 평균 3500 을 이용한다. (2022년 기준)
  • 쇼츠의 경우 현재 평균CPM 이 120원 으로 알려져있다.
  • (2023년 기준) 쇼츠의 경우 광고가 무조건 1개 이상 누적된다.
  • 영상길이별 광고수
    30분 이상: 4개
    8분 이상: 2개
    나머지: 1개

DATA

준비된 데이터는 아래와 같습니다!

본채널과 서브채널의 영상 데이터를 youtube api를 통해 가져왔습니다. 재생목록별 정보가 필요했기 때문에 playlist_title별 영상(A)최근 업로드순으로 영상(B)을 가져와서 B기준으로 playlist_title 정보를 merge 해주었습니다. 이렇게 한 이유는 재생목록별로 영상을 가져오게되면 재생목록별에 따로 등록되어있지 않은 영상의 경우 집계가 안되기 때문입니다. (shorts 영상의 경우 따로 재생목록이 없었기 때문에..)

  • seconds(영상의 길이)와 hour(업로드 시간) 컬럼을 따로 추가해주었습니다.
  • seconds 의 경우, 영상별 광고의 개수를 추가하기위해 필요하며
  • hour 의 경우, 업로드 시간 (오전,오후)로 파생변수를 만들기 위해 추가해주었습니다.

benefit 계산

① COST(비용)

정확한 순수익(추정)을 계산하려면 총 광고수익 에서 편집비용을 빼야합니다.

물론, 편집비용 이외에 영상자체의 컨텐츠 비용 등 여러가지가 있겠지만 정확하게 고려할 수 없으니🤤 편집비용만 추정하여 계산했습니다.

(2020년 기준) 우왁굳님이 팬카페에 편집자 공고를 올려주셨던 기준이 분당 20000원이었는데 좀 더 보수적으로 30000원으로 정했습니다. 그리고 풀영상의 경우 편집이 들어가지 않은 영상으로 (30분 이상) 100,000원으로 고정 했습니다.

그리고 위에서 정의한 광고개수, CPM, 수수료 등을 적용하여 benefit을 계산하면 아래와 같습니다!

② 계산

def benefit_cal(df):
# 영상길이별 광고 수
    df['ad_count'] = 1
    df.loc[df['seconds'] >= 480,'ad_count'] = 2
    df.loc[df['seconds'] >= 1800,'ad_count'] = 4

# CPM, 수수료를 적용한 추정 광고수익
    df['ad_benefit'] = (3500 * (df['view_count'] * 0.6) / 1000) * 0.55

# Shorts 
    df.loc[df['playlist_title'] == 'shorts', 'ad_benefit'] = (120 * df['view_count'] * 1 / 1000) * 0.55

# cover 곡의 경우 수익창출이 불가능 하므로 0원으로 고정 
    df.loc[df['title'].str.contains('COVER|cover|Cover|OST'), 'ad_benefit'] = 0

# 비용
    df['cost'] = (df['seconds']/60) * 30000
    df.loc[df['seconds'] > 1500, 'cost'] = 100000

# 최종 수익
    df['benefit'] = df['ad_benefit'] - df['cost']

    df['ad_benefit'] = df['ad_benefit'].astype(int)
    df['cost'] = df['cost'].astype(int)
    df['benefit'] = df['benefit'].astype(int)
    df['reaction'] = df['like_count'] + df['comment_count']

    return df

컨텐츠
하나의 컨텐츠로 나누기 애매한 표본수를 갖고있는 영상들의 경우 아래의 기준으로 합쳐주었고 총 10개의 재생목록으로 나눠집니다!

# 먹방/캠방/연공전의 경우 따로 빼서보기 애매한 표본수 때문에 기타 컨텐츠로 합쳐준다.
all_df.loc[all_df['playlist_title'] == '먹방/캠방', 'playlist_title'] = '합방,시리즈,기타 컨텐츠'
all_df.loc[all_df['playlist_title'] == '연공전', 'playlist_title'] = '합방,시리즈,기타 컨텐츠'

# vrchat 컨텐츠는 vr 끼리, gomem/middle 의 경우 왁타버스 예능영상으로 / MUSIC 의 경우 이세계아이돌,왁타버스 뮤직이 나눠져있지만 두 그룹을 나눌 정도로 표본이크지 않아서 합쳐주었습니다.
all_df.loc[all_df['playlist_title'].str.contains('vr'),'playlist_title'] = 'vrchat'
all_df.loc[all_df['playlist_title'].str.contains('GOMEM|MIDDLE'),'playlist_title'] = 'WAKTAVERSE_예능'
all_df.loc[all_df['playlist_title'].str.contains('MUSIC'),'playlist_title'] = 'WAKAVERSE_MUSIC'

EDA

영상개수

  • (2021~2023) 현재까지의 컨텐츠별 영상개수, 시청자반응과
  • (2023~2023.08) 올해 상반기 추정이익을 채널별로 간단하게 시각화하고 넘어 가보려고합니다!

아래는 조회수, 좋아요, 댓글수, 편집비용, 추정수익, 영상길이, 영상개수의 합,평균을 집계한 테이블 입니다.

  • 연도별 영상 개수

    ✔️ 연도별 영상개수 , 점점 커지는 서브채널의 비중
    SHORTS, WAKTAVERSE:예능, ISGYE IDOL:예능, WAKTAVERSE:MUSIC

    • (2021년~2022년) 본채널의 비중을 조금 줄이고 서브채널 컨텐츠인 왁타버스/이세계아이돌 예능 그리고 음악 컨텐츠와 쇼츠의 영상비중이 눈에 띄게 늘어났습니다.

추정이익

  • 2023년 상반기 본채널 컨텐츠 - 추정이익(합)

    🥇마인크래프트, 🥈vrchat , 🥉합방,시리즈,기타 컨텐츠

본채널의 경우 마인크래프트 컨텐츠가 32%로 가장 높습니다. 왁굳님의 대표 컨텐츠이죠!
합방,시리즈,기타 컨텐츠(24%), vrchat(25%)

  • 2023년 상반기 서브채널 컨텐츠 - 추정이익(합)
    🥇 예능 클립 영상

서브채널의 경우 크게 음악, 쇼츠, 예능 클립영상으로 이루어져 있습니다. 왁타버스의 음악의 경우 official 곡도 있지만 커버곡의 경우 패널티가 많기 때문에 수익창출은 거의 불가능 합니다.

시청자 반응

  • 2023년 본채널 컨텐츠 - 시청자 반응(평균)

    🥇shorts 🥈마크 🥉합방,시리즈,기타 컨텐츠

시청자 반응은 '좋아요' + '댓글수'를 합친 변수입니다. 확실히 shorts 영상의 경우 영상의 길이가 짧은 만큼 더 자주 업로드할 수 있고, 쇼츠 특성상 노출수가 많은 만큼 좋아요나 댓글도 많이 달리는것 같습니다.

  • 마인크래프트, 합방 컨텐츠의 경우 추정수익에 이어서 시청자 반응 또한 상위권에 있습니다.
  • 2023년 서브채널 컨텐츠 - 시청자 반응(평균)

    🥇shorts 🥈WATKAVERSE : MUSIC 🥉ISGYE IDOL : 예능

서브채널의 시청자 반응에서 shorts와 음악컨텐츠가 큰 비중을 차지하고 있습니다. 쇼츠와 음악컨텐츠의 경우 수익면에서 좋지 않지만 높은 시청자들의 반응을 얻고 있군요

  • 영상의 길이 비중

해당 채널의 경우 영상의 대부분 길이가 10분 미만에 분포하고 있습니다.
코로나 이후, 릴스, 틱톡, shorts 같은 짧은 클립형태의 영상비중이 많이 늘어난 것에도 큰 영향이 있는 것 같습니다.

변수별 상관계수

예상할 수 있듯이 view_count 와 reaction, benefit 과 상관관계가 높았습니다. 하지만, benefit 과 comment_count, like_count의 경우 상관계수가 0.43~49로 생각보다 엄청 높지는 않았습니다. 또한 좋아요가 많다고 무조건 댓글수도 많을것이라고 볼 수 없는것 같습니다.

다중회귀분석

✔️ 과제

  • 수익과 시청자반응 측면으로 어떤 변수들이 영향을 줄까?
  • 해당 컨텐츠 수익이 높다고해서 시청자 반응 또한 높을까?

표준화 및 라벨링

  • 범주형변수들을 라벨링 해주고 연속형변수들의 측정 단위 통일 합니다.
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# all_df = all_df[['playlist_title','seconds','view_count','like_count','comment_count','benefit']]
variables_to_normalize = ['seconds', 'view_count', 'like_count', 'comment_count', 'benefit','reaction']

# 표준화 (Standardization)
scaler = StandardScaler()
df_encoded[variables_to_normalize] = scaler.fit_transform(df_encoded[variables_to_normalize])
  • 대부분이 오른쪽으로 치우쳐진 형태의 분포를 갖고 있었기 때문에 로그화 해주었습니다!
df_encoded.skew()

# 왜도값 절대값이 2이상인 변수 선택
var = ['seconds', 'view_count', 'like_count', 'comment_count', 'benefit','reaction']

# 연속형 변수에 로그 변환 적용
df_encoded[var] = np.log1p(df_encoded[var])
outputbeforeafter
seconds6.0227522.595621
view_count6.4078110.815713
like_count4.2554130.242122
comment_count12.5621931.600324
benefit10.7611810.665975
reaction4.4047330.277295

Y : benfit (수익), reaction(시청자 반응)

  • 후진 소거법 이용
    모든 변수를 넣고 유의하지않은 변수들을 제거 하고 설명력이 가장 높은 기준으로 최종식을 정했습니다.
from statsmodels.formula.api import ols
# 변수 이름 수정
df_encoded = df_encoded.rename(columns={
    'pli_합방,시리즈,기타 컨텐츠' : 'pli_합방기타컨텐츠'    
})

# Y : benefit
ols('benefit ~ seconds  + reaction  + pli_shorts + pli_vrchat + pli_노가리 + pli_마크 + pli_합방기타컨텐츠', df_encoded).fit().summary()

# Y : reaction
ols('reaction ~ seconds + view_count  + pli_ISEGYE_IDOL_예능 + pli_WAKAVERSE_MUSIC + pli_WAKTAVERSE_예능 + pli_shorts + pli_똥겜 + pli_노가리', df_encoded).fit().summary()

📝 회귀분석결과

1. benefit

  • 서브채널 컨텐츠보다 본채널의 컨텐츠가 수익측면에서 상대적으로 높은 추정치(coef)를 갖고 있습니다.
  • Shorts 의 경우 수익측면에서 좋진 않습니다. 영상의 길이가 짧기 때문에 들어가는 비용이 낮지만, cpm 도 낮기 때문인것 같습니다.
  • 설명력(R-Sqaure) : 0.483
  • 다중공선성 문제 없음

2. reaction (comment_count + like_count)

영상의 길이가 짧을 수록 reaction이 높을 확률이 크다?

  • Shorts 와 WAKTAVERSE : MUSIC 컨텐츠의 공통점을 뽑자면 먼저 영상의 길이가 상대적으로 짧다는 것입니다. 또한 보는데 부담이 적은 컨텐츠라고 할 수 있습니다.
  • 추가로 WAKTAVERSE : MUSIC의 경우 댓글수를 목표변수로 봤을 때 전체 컨텐츠중에서 댓글수를 높히는데 가장 큰 영향력을 갖고 있었습니다.
  • 반면에 유의미한 변수중 똥겜, 노가리, 예능 클립의 경우 시청자 반응을 낮추고 있습니다.
  • 설명력(R-Sqaure) : 0.582
  • 다중공선성 문제 없음

결론

현재 본채널과 서브채널에 다양한 컨텐츠들이 있고 크게 수익측면과 시청자들의 반응측면으로 컨텐츠들을 나눌 수 있었습니다.

수익을 높히는데는 본채널 컨텐츠의 '마인크래프트', '합방 시리즈', 'vrchat'의 비중이 상대적으로 컸으며 시청자들의 반응을 높히는데는 영상 길이가 짧은 'Shorts' 와 서브채널의 'WAKTAVERSE : MUSIC (이세계아이돌 MUSIC 포함)'이 대표적이었습니다.

시청자의 반응을 측정할 수 있는 대표적인 척도로 볼 수 있는 변수를 좋아요와 댓글수 라고 생각하는데요! 특히 WAKTAVERSE : MUSIC 의 경우 댓글반응을 높히는데 가장 영향력이 컸습니다.

댓글까지 남긴다는건 하트를 누르는것에 비해 시청자의 수고가 조금 더 들어가기 때문에 확실히 현재 시청자들의 참여도가 가장 높은 컨텐츠라고 생각이 드네요 ㅎㅎ


]

profile
다양한 컨텐츠가 있는 곳을 좋아합니다. 시리즈를 참고하시면 편하게 글을 보실 수 있습니다🫠

0개의 댓글