期待了好久的《昆仑神宫》终于在九月二十一日播出了,对于盗墓粉来说、每天一集两集确实有点不过瘾,对于曾经一天刷了一部《盗墓笔记》的人来说、没办法这样忍受这样慢的进度。于是就想了解下所有的人物和地名、来了解整部剧的走向和发展。
所以说干就干、通过一个小时的时间获取了人名和地名、起初想直接通过分词处理后来发现结果不理想、所以就通过分词后使用paddle标注词性进行统计了。
import jieba
import jieba.posseg as pseg # 标注词性
import paddle # Paddle模式
with open("6620.txt","r",encoding="utf8") as file: # 《昆仑神宫》范本
text = file.read()
paddle.enable_static() # 静态量化
jieba.enable_paddle() # 启用Paddle模式
word_list = jieba.lcut(text) # 分词处理
with open("昆仑神宫人名和地名.txt","w",encoding="utf8") as f:
for word in word_list:
if len(word)==1:
continue
words = pseg.cut(word,use_paddle=True) # paddle模式,进行标注词性进行统计
word,flag = list(words)[0]
if flag=='PER' or flag=='LOC': # 这里写成LOC是地名br
f.write(word)
f.write('\n')
print("success")
success
通过上述代码可以看出将处理好的数据写入昆仑神宫人名和地名.txt文件中、便于进行词云的展示。
import pyecharts.options as opts
from pyecharts.charts import WordCloud
rwith open("昆仑神宫人名和地名.txt","r",encoding="utf8") as rf:
kunlun = rf.read()
kunlun = kunlun.replace("\n"," ")
textList = kunlun.split(" ")
counts = {}
for i in textList:
if i !="":
if i not in new_list:
counts[i] = counts.get(i,0) 1
dataList=sorted(counts.items(), key=lambda a: a[1], reverse=True) #按高到低顺序,按照列表中第二个元素排序,以字典形式储存
key = []
value = []
for d in dataList:
key.append(d[0])
value.append(d[1])
textData = [z for z in zip(key,value)]
chart = WordCloud()
chart.add('《鬼吹灯--昆仑神宫》所有的人名和地名',data_pair=textData,word_size_range=[6,66])
chart.set_global_opts(title_opts=opts.TitleOpts(title='《鬼吹灯--昆仑神宫》所有的人名和地名',
title_textstyle_opts=opts.TextStyleOpts(font_size=10)),
tooltip_opts=opts.TooltipOpts(is_show=True))
chart.render_notebook()
通过这个结果可以看出明叔是整本书的主线、串成了整部故事的脉络,昆仑山、胡司令都是我们熟悉的人物、王胖子也是没有出现,却是以王凯旋这个人物来论述的故事概要,说明了电视剧和原著还是有一定差距的、需要我们还是看原著书籍为主,当然看电视剧也是可以的,但是它的故事性和完整性不如书籍讲述的明白。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved