-数据来源:下载自kaggle,数据为Booking.com的515k+欧洲酒店评论数据,包含欧洲1493家高档酒店。Booking.com是面向全球用户的在线酒店预订网站。该数据是很好的数据分析练习资源。
-数据集大小:515k+条评论记录,总计227MB
-数据集字段:Hotel_Address(酒店地址)、Review_Date(评论时间)、Average_Score(过去一年平均评分)、Hotel_Name(酒店名称)、Reviewer_Nationality(评论者所属国家)、Negative_Review(消极评论,不相关则标记 'No Negative')、Review_Total_Negative_Word_Counts(评论长度)、Positive_Review(积极评论,不相关则标记 'No Positive')、Review_Total_Positive_Word_Counts(积极评论总数)、Reviewer_Score(评论者评分)、Total_Number_of_Reviews_Reviewer_Has_Given(评论者过去评论总数)、Total_Number_of_Reviews(有效评论总数)、Tags(标签)、days_since_review(评论日期和数据抓取时间间隔)、Additional_Number_of_Scoring(无评论评分总数、lat(酒店维度)、lng(酒店经度)
-数据展示:
-通过计算1493家酒店的消极评论总数比例和积极评论总数比例,对酒店进行排序,得到积极评论、消极评论占比最高的10家酒店;
-统计各个评分范围内的评论数量,查看评论分布情况,得到评论数最多和最少的评分范围,并计算评论数平均值,分别统计高于平均值和低于平均值的评分范围;同时,也可以使用箱线图来得到各个评分范围大部分评论的长度,并进行比较。
-对消极评论作上述统计分析;
-对积极评论作上述统计分析;
-针对不同国家,统计对应酒店数量以及所有酒店的平均评分和标准差,比较各国酒店评分的分布状况;
-没有评论内容的评分分布状况。
-针对不同国家的酒店,评分是否存在地区差异;
-过去的酒店评分是否会对评论者评分产生影响;
-对消极评论和积极评论进行分词后,进行单词频度分析,得到用户最常关注的酒店问题(共现分析或主题分析?),从而可以对各个酒店添加标签;
-没有评论的评分和有评论内容的评分相比有什么差异。