2015年10月15日-10月19日,潘莉老师参加了由中国科学院计算技术研究所在北京举办的“大数据核心技术之数据挖掘与机器学习技术探索及应用”培训班。
培训一共五天,前三天主要是关于机器学习和数据挖掘基础原理和数据挖掘基础技术,由王斌博士主讲,他是中国科学院信息工程研究所研究员,博士生导师,研究方向为信息检索、自然语言处理与数据挖掘。第四天主要关于机器学习的实现,由杨志峰博士主讲,他是中国科学院计算技术研究所博士。在微软研究院、腾讯研究院长期担任研究员、技术总监等职务,在信息检索、分布式计算、个性化推荐、计算广告等领域主导了多个大型项目,在大型数据的分析与挖掘领域有丰富的理论与实践经验。
培训行程安排很紧凑,基本严格按照会议邀请函上面安排的内容进行,前三天介绍了机器学习和数据挖掘的相关理论知识,为后面机器学习实现奠定了理论基础。作为统计专业出生的人员表示,在前三天的理论知识培训的过程中,有一部分是自己比较熟悉的内容,比如聚类算法、岭回归,决策树等,也是传统经典统计学内容的一个复习,同时结合数据挖掘近年来特别是大数据处理方面,关于机器学习的部分,是自己所欠缺的,也是本次参会的最主要的一个学习点,本次培训关于机器学习主要集中在文本挖掘和数据模型训练上面,讲分类器比较多,这也许跟主讲老师的学科背景有关系,王斌博士是计算机专业出生,做分类是他的强项。第四天主要介绍机器学习的实现,通过案例演示的方式,这是另一位主讲老师杨志峰博士来主讲,主要通过垃圾邮件过滤以及社区犯罪率预测的两个案例来展示机器学习的实现,他用了python3.4来实现,这个软件需要编程实现,语言与c语言类似,杨博士大概是专业技术出生,讲课过程中声音略小,学员反应前后逻辑问题,学习过程中有写艰难,更多的是自己花时间看懂程序,并消化前三天的理论知识,所幸学员中藏龙卧虎,分享了很多关于机器学习和python编程的电子书,有兴趣的我院同事,我希望也与之分享和讨论,共同学习。与此同时,在这个过程中,本人陷入深思及自我反省,作为教学工作者,如何将课本和专业知识深入浅出的表达及授予学生。
总的来说这次培训对本人触动很大,除了专业知识得到进一步补充以外,开阔了眼界,从理论的层面具体到了任务的实现。参加这种培训,不仅对专业素养有很大提高,同时更促进了进一步学习的动力。