项目式数字人文工作坊 — 期末考查 答题卡

课程代码:50002680054 | 满分:100分 | 开卷机考

⚠️ 请在本地打开 Word 试卷《期末考试试卷.docx》对照题目作答。本页面仅为答题卡。

一、数据探索(30分)

使用 Sheet「学生数据」

1.1 数据基本信息(6分)

行数列数含缺失值的单元格数缺失值占比(%)

1.2 GPA描述统计(6分)

均值标准差中位数

1.3 相关性分析(6分)

计算"日均屏幕时间_小时"与GPA之间的Pearson相关系数,并判断相关方向。

Pearson相关系数 r相关方向(正/负)

1.4 分组统计(6分)

按"专业大类"分组,计算各专业平均GPA。

平均GPA最高的专业平均GPA最低的专业

1.5 强相关特征对(6分)

计算所有数值列之间的Pearson相关系数,找出|r| > 0.7的特征对。

共发现 对,请在表中列出:

特征对相关系数 r

二、降维与聚类分析(35分)

对18个数值特征标准化后,做PCA和K-means

2.1 PCA降维(3分)

累计方差解释率达80%至少需要保留 个主成分。

2.2 第一主成分(6分)

PC1方差解释率 = %

PC1载荷绝对值最大的三个特征依次是:

2.3 PC1命名(4分)

根据PC1的载荷分布,为PC1命名一个学术性标签:

2.4 K-means聚类(6分)

K值取2~8,根据轮廓系数,最佳K = ,轮廓系数 =

2.5 聚类特征画像(8分)(各聚类指标均值,保留1位小数)

日均屏幕
时间
学习APP
使用数
数字化工具
掌握度
日均自习
时长
月均阅
读量
MOOC学
习频率
数字焦虑
指数
在线学习
满意度
GPA挂科数在线讨论
参与度
协作完成
率(%)
聚类0
聚类1
聚类2
聚类命名

2.6 聚类与专业交叉分析(4分)

人文社科医学理工经管艺术体育
聚类0
聚类1
聚类2

2.7 关注群体判断(4分)

最需要学校学习支持中心重点关注的群体是:

简要说明理由(20字以内):

三、文本挖掘(35分)

使用 Sheet「文本评论」

3.1 分词统计(6分)

使用jieba分词并去除停用词后:

分词总数平均每条评论词数

3.2 词频分析(5分)

词频最高的5个词依次为:

1st2nd3rd4th5th

3.3 情感分析(8分)

使用SnowNLP打分:<0.4负面,>0.6正面,其余中性。

正面评论数负面评论数中性评论数情感得分均值

3.4 TF-IDF + K-means文本聚类(6分)

最佳K = ,各聚类TOP3关键词及命名:

聚类TOP3关键词聚类命名
0学校、建议、课程
1不会、太高、人类
2参差不齐、mooc、数据库
3学习、数字化、身体
4效率、很多、提升
5方便、推荐、翻倍

3.5 LDA主题建模(6分)

LDA提取4个主题,为各主题命名学术性标签:

主题Top5关键词主题命名
0学习、身体、越来越、干涩、头痛
1效率、需要、chatgpt、方便、mooc
2内容、参差不齐、不行、筛选、太多
3不会、太高、数字化、真的、人类

3.6 综合概述(4分)

概述当前大学生对数字化学习的核心态度(80字以内):