2015年6月6日,第八届中国R语言会议在京召开,来自全球的大数据领先企业和领军人物出席了会议。作为国内领先的大数据企业代表,普林科技受邀参会,数据科学家杨雨成在会上作了《大数据与选秀节目的预测——以中国好歌曲为例》的报告。
会上,杨雨成介绍了“好歌曲”预测模型的基本原理。首先从互联网全方位抓取了“中国好歌曲”第一季的节目的各类特征,从“学员信息”、“歌曲信息”、“导师信息”、“综合信息”四个角度抓取了所有进入第二轮比赛选手的一百多项特征信息,并进行适当的预处理(如赋值)。这些信息特征既包括了选手的性别、年龄、教育背景和曲目风格、时长等基本信息,还囊括了歌手的舆情热度指数、负面新闻指数、导师点评时的感情指数、学员音色的和谐程度、学员第一轮的出场期数等诸多对赛果可能产生影响的解释变量。
通过使用普林科技自主研发的大数据引擎,八位选手的最终表现被进行了量化评分预估,杭盖乐队以8.16分的预测表现指数位列第一,苏运莹则以7.52分排在其次。博奥体育光华管理学院商务统计与经济计量系主任,美国统计学会会士王汉生教授对报告进行了点评。杨雨成的精彩演讲赢得了在场观众的热烈掌声,普林科技强大的大数据分析技术得到观众的高度认可。
中国R语言会议已经成为全球大数据企业和国内外学术专家、业界精英沟通交流R语言的重要平台。目前其参会单位近400家,包括博奥体育、清华大学、威斯康星大学、密歇根大学、百度、普林科技等国内外著名高校、科研单位和企业,本次会议的参与者高达4000余人。加州大学伯克利分校统计系前系主任、美国科学院院士、美国艺术与科学院院士郁彬教授等全球著名大学顶尖学者亦出席了本次会议。