[번역] 더 많은 데이터가 더 좋은 알고리즘을 이긴다 #3

저의 블로그의 독자라면 저의 믿음인, 더 많은 데이터가 보통 더 좋은 알고리즘을 이긴다는 사실에 대해서 잘 알고 계실 것입니다. 여기에 또 다른 증거가 될 만한 자료가 있습니다.

구글이 오늘 자신들의 수입을 공개하였습니다. 그리고 충격적이였습니다. – 대부분의 월스트릿에서는 ComScore의 보고서와 다른 결과를 보고 혼란스러워 했습니다. 그 보고서에는 유료 click(click 당 일정 금액을 지불)이 단지 1.8%만 성장할 것이라고 말하였습니다. 결과적으로는, 작년 대비 20%나 성장하였고 수입은 30% 성장하였습니다.

그에 반해, 검색 엔진 최적화 서비스를 제공하는 Efficient Frontier사(현재 Adobe사에 팔렸음)에서 구글의 수입을 발표하기 몇 시간 전에 그들의 검색 성능 보고서를 그들의 블로그에 게시하였습니다. EF사는 가장 큰 직접 시장들의 검색 최적화를 괸라하고 세계에서 가장 많은 SEM 비용을 처리합니다. 그들의 엄청난 데이터가 다른 누구보다 구글의 시장에 대한 통찰력을 가지게 하였습니다.

EF사는 구글이 전년 대비, 유료 click이 19.2% 증가하고 CPC는 11.2% 증가할 것이라고 보고했습니다. 간단한 수학을 해보자면 1.192*1.112 = 1.325가 됩니다. 그것은 32.5%의 작년 대비 수익 증가율이 됩니다. 이것은 다른 누구보다도 가까운 근사치였습니다! 그리고 이것은 단지 한번으로 끝나지 않았습니다. 1월달에, EF사는 검색 엔진 최적화 시장의 전년 대비 29% 성장할 것을 예상하였고 그 중에 97%가 구글의 것이 될 것이라고 보았습니다. 그것은 구글의 입장에서는 약 28%의 전년 대비 수익 증가가 될 것입니다. 그것은 실제 증가율인 30%과 매우 비슷하였습니다.

Paul Kedrosky씨가 지적했듯이, 이것은 ComScore사 방식의 큰 패단이였습니다.(구글의 수익 발표 이후, ComScore사의 주가는 8% 하락하였습니다.) ComScore사는 많은 데이터를 패널 기반의 방법으로 수집하였습니다. 그것은 마치 Nielsen 방법인 그들의 셋톱 박스가 설치된 가정들 중 몇 몇을 선발하여 데이터를 수집하는 것과 비슷하게 사용자 패널로부터 데이터를 수집하였습니다. ComScore사는 그 누구보다도 이쪽 분야에 오래동안 사업을 해왔고 이견없이 데이터를 분석하는데에 있어서는 최고의 방법론을 가지고 있었습니다.(예를 들어, 알고리즘 등) 그들은 단지 적절한 데이터를 보고 있지 않거나 충분히 보지 않았던 것입니다. 간단한 수학을 이용하여 엄청난 데이터를 분석한 것이 크지 않는 데이터로부터 몇년 동안 개발해온 분석 기법을 간단히 이겼습니다.

저의 개인적인 의견으로는, 이것은 또한 ComScore사의 트래픽 수치의 유효성에 대해 의심을 사게 만들었습니다. 개인적으로 (로그를 통해) 수치를 알게 된 웹 사이트들인 Quantcast사Hitwise사가 ComScore사보다 훨씬 실제 수치에 가까웠습니다. 후자의 두 회사는 작은 패널에 많이 기반하지 않았습니다. 오늘날 ComScore사의 가치는 광고주들과 광고 대행사들이 ComScore사의 수치를 신생 회사들의 수치보다 더 신뢰한다는 사실에 많은 영향을 받고 있습니다. 광고주들의 관성이 당분간 이 상태를 그대로 지속시킬 것입니다. 그러나 몇번의 계속된 큰 실수들은 빠른 시간내에 큰 변화를 만들게 될 것입니다.

밝히는 사실: Cambrian Ventures사는 EF사의 투자자입니다.(해당 저자는 Cambrian의 초기 파트너이다.) 그러나, 저는 EF사가 공개한 보고서 이외의 정보에 대한 접근 권한이 전혀 없습니다.