2021. 9. 16. 12:13ㆍData Analysis/Competition
안녕하세요.
데이터 분석하는 새내기 대학원생, 석사 1학기 스물 여섯살 김성곤입니다.
어느덧 벌써 2학기가 되었으니 아직 새내기라는 표현이 어울릴지 모르겠네요...!🤣
2021년 8월 3일에 시작되었던 전국 빅데이터 분석 공모전 '빅콘테스트'의 제출 기간이 어제인 2021년 9월 15일에 드디어 마감되었습니다! 한달이 조금 넘는 기간동안 정말 열심히 달린 것 같습니다. 대학원생이라는 신분의 특성상 대회 외적으로도 해야 하는 업무가 많아서 온전히 모든 것을 쏟아 붓지는 못했으나, 그 속에서도 할 수 있는 최선을 다했기 때문에 아쉬움이나 후회는 없습니다.✌
저는 지난 게시글에서 말씀드렸던 것처럼 챔피언리그에 참가했습니다. 챔피언리그는 다시 스포츠테크와 수산Biz 부문으로 나뉘었는데, 저는 그 중에서도 스포츠테크 부문의 「프로야구 배럴(Barrel)을 통한 타자 성적 예측」 부문에 참가헀습니다! 대회에 사용된 데이터는 국내 스포츠 IT 기업 "스포츠투아이"에서 제공해주셨습니다. 깨끗하게 잘 정리된 데이터를 제공해주신 덕분에 대회를 진행하기 수월했습니다. 그럼 데이터를 제공 받은 순간부터 제출하기까지의 한 달동안 제가 대회를 통해 직접 경험하고 느낀 점을 말씀드리겠습니다!
# 대회 문제 소개
제가 참가한 챔피언리그 스포츠테크 부문에는 크게 두 가지 문제가 출제되었습니다. 두 문제 중 한 문제를 선택해서 진행하는 것이 아니라 두 문제 모두에 답을 제출해야 했습니다.
문제 1. 프로야구 배럴(Barrel) 정의
첫 번째 문제는 국내 프로야구의 환경에 맞게 배럴(Barrel)을 새롭게 정의하는 것이었습니다. 배럴이라는 용어가 다소 생소하지 않으신가요? 저도 이번 대회를 진행하면서 배럴이라는 용어를 처음으로 접했습니다!
배럴은 메이저리그에서 처음 만들어진 지표로, 쉽게 이야기하면 "좋은 타구"를 의미합니다. 메이저리그에서는 98마일 이상의 타구 속도가 26~30도의 타구 각도를 충족할 경우를 포함하여, 특정 타구 속도에서 특정 타구 각도를 가지는 타구들의 집합을 배럴로 정의하고 있습니다. 이러한 배럴 타구는 평균적으로 0.500 이상의 타율과 1.500 이상의 장타율을 생산할 수 있다고 합니다. 실제로 배럴 타구를 많이 친 타자는 그렇지 못한 타자에 비해 성적이 좋습니다.
그러자 한국 프로야구에도 배럴이라는 지표가 도입되었습니다. 그러나 메이저리그에서 사용하고 있는 타구 속도와 타구 각도 기준을 그대로 적용하기에는 무리가 있었습니다. 메이저리그와 KBO 타자들 사이에는 다소 능력치의 차이가 존재하기 때문입니다. 그래서 KBO에서는 메이저리그보다 더욱 기준을 완화시킨 "한국형 배럴 타구 기준"을 정의했습니다. 그러나 이렇게 이미 한국형 배럴 타구 기준이 존재함에도 불구하고 이번 대회에서 출제된 문제는 한국 프로야구의 환경에 맞게 배럴을 정의하라는 것이었습니다.
즉, 현재 정의되어 있는 한국형 배럴 타구 기준에는 무언가 문제가 존재한다는 것을 알 수 있습니다. 여기서부터 문제를 풀어나가기 시작하여 저희 팀이 생각하는 한국형 배럴 타구의 기준을 정의해나갔습니다. 저희가 정의한 새로운 한국형 배럴 타구의 기준이 심사위원님들의 마음에 쏙 들었으면 좋겠습니다!😀😀
문제 2. 성적 예측 모형 개발(모델링)을 통한 타자 OPS(장타율+출루율) 예측
두 번째 문제는 첫 번째 문제에서 정의한 새로운 한국형 배럴 타구를 기반으로 하여 타자의 OPS 예측 모형을 개발하는 것이었습니다. OPS란 장타율과 출루율을 더한 값으로, 타자의 성적을 평가할 때 사용되는 중요한 지표 중 하나입니다.
이 문제를 해결하는 과정에서 중요한 포인트는 총 세가지가 있습니다.
1. 첫 번째 문제에서 정의한 새로운 한국형 배럴 타구를 기반으로 개발해야 함
2. 한 시즌 전체적인 성적이 아니라 21경기만의 성적을 예측해야 함
3. 장타율과 출루율 그리고 OPS 총 세 가지 값을 예측해야 함
즉, 저희가 개발해야 하는 예측 모형은 짧은 기간 동안의 변동성을 잘 캐치할 수 있어야하며, 그와 동시에 1번 문제에서 저희 팀이 개발한 배럴 기준을 기반으로 개발되어야 했습니다. 예측의 대상이 되는 기간은 9월 15일~10월 8일로, 해당 기간이 시작될 때 타자의 성적을 0타수 0안타로 리셋시킨 후 오직 해당 기간 동안만의 성적을 예측해야 했습니다. 즉, 21경기라는 짧은 기간 동안 타자의 폼이 갑자기 좋아지거나 반대로 미끄러지면, 예측값과 실제값 사이의 차이가 많이 날 우려가 있습니다. 그래서 더 재밌으면서도 고려할 것이 많은 복잡한 문제였습니다!
# 결과 제출 후 소감
주제부터 굉장히 흥미로웠던만큼 대회 내내 정말 즐거웠습니다. 마음이 잘맞는 팀원들과 함께하여 시너지도 좋았던 것 같습니다. 2년 전에 참가했던 2019 빅콘테스트 퓨쳐스리그에서는 생각치도 못했던 분석 기법들을 사용해보기도 했고, 더 깊고 넓게 생각하며 대회를 진행했습니다. 열심히 한만큼 다른 참가자 분들께서는 어떻게 배럴 타구를 정의하고 어떠한 예측 모형을 개발하셨을지 너무 궁금합니다. 다른 팀의 발표를 듣기 위해서라도 꼭 본선에 진출해야겠습니다! 1차 심사 통과 여부는 10월 22일에 발표됩니다. 1차 합격 결과를 가지고 다시 돌아올 수 있기를 바라며 이번 글을 마치도록 하겠습니다!
'Data Analysis > Competition' 카테고리의 다른 글
2021 빅콘테스트 챔피언리그 수상 확정!! <스포츠테크> (0) | 2021.12.11 |
---|---|
2021 빅콘테스트 챔피언리그 본선PT 후기 <스포츠테크> (6) | 2021.12.08 |
2021 빅콘테스트 챔피언리그 본선 진출!! <스포츠테크> (0) | 2021.10.26 |
제9회 2021 빅콘테스트 세부 일정 (0) | 2021.08.04 |
제9회 2021 빅콘테스트 개최 일정 (4) | 2021.07.02 |