博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计及词云制作
阅读量:5945 次
发布时间:2019-06-19

本文共 1820 字,大约阅读时间需要 6 分钟。

1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)

    答:

         1.大数据的发展前景和应用?

          2.做Python开发工程师要具备什么资质?

2.中文分词

刚刚过去的几天里,多地楼市调控力度再加码,限购、限售力度再度增强。业内人士表示,目前各地仍在"打补丁",全方位封堵任何炒房的可能性,从而遏制房价过快上涨,房地产去投资化趋势愈加明显。23日,石家庄市人民政府关于加强房地产市场调控的补充意见指出,非本市户籍居民家庭购首套房需3年内连续24个月缴税证明或社保记录,限购1套住房。需注意的是,自发文日起,非本市户籍购房者与本市户籍购房者均执行新购住房需满足5年内不得上市交易,购房时间以网签备案为准。此外,重庆、南宁、长沙、南昌、贵阳、武汉等地也集中发文加码楼市调控。长沙市住建委22日发布新政,市行政区购买商品房取得不动产权证书3年后才能再次出售。非本市户籍购房者在满足24个月以上缴税或社保的条件下,限购1套住房。重庆市国土房管局出台《关于加强主城区新购住房再交易管理的通知》,指出自23日起,重庆市主城区新购新建商品住房和二手住房须取得不动产权证满两年后才能上市交易。南宁下发《关于进一步加强房地产市场调控促进房地产市场平稳健康发展的补充通知》,企事业单位、社会组织等法人单位在南宁市区(不含武鸣区)购买第二套及以上住房的,须取得不动产权证书满两年后方可转让,政策有效期为五年。南昌发布新政指出,对于限房价、竞地价方式土地的商品房,限制出售对象为本市户籍无房成年市民,限购一套,并5年内不得转让。其余住宅需满足取得不动产权证2年方可转让。武汉方面,对开发商区别对待全款和贷款购房行为给予叫停,以促进增加住房供应。中原地产市场总监张大伟表示,房地产调控已从过去的结果调控模式转向预期调控。

 

下载一中文长篇小说,并转换成UTF-8编码。

使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

import jiebafo = open('xiaoshuo.txt','r')words = fo.read()new = jieba.cut(words,cut_all = True)news = list(new)print(news)exp = {
'我','你','他','的','了','在','年','、','2','\n','房',',','。','满','市','上','是','不','“','”','限','地','购','区','?','住'}dic = {}keys = set(news) - expfor i in keys: dic[i] = words.count(i)wc = list(dic.items())wc.sort(key = lambda x:x[1],reverse = True)#函数定义for i in range(20): print(wc[i])fo.close()

**排除一些无意义词、合并同一词。

exp = {
'我','你','他','的','了','在','年','、','2','\n','房',',','。','满','市','上','是','不','“','”','限','地','购','区','?','住'}dic = {}keys = set(news) - exp

 

**使用wordcloud库绘制一个词云。

 

#coding:utf-8

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

 

text =open(r"C:\Users\Administrator\Desktop\sheng.txt",'r').read()

 

wordlist = jieba.cut(text,cut_all=True)

wl_split = "/".join(wordlist)

 

mywc = WordCloud().generate(text)

plt.imshow(mywc)
plt.axis("off")
plt.show()

 

 

(**两项选做,此次作业要求不能雷同。)

转载于:https://www.cnblogs.com/huanglinsheng/p/7591197.html

你可能感兴趣的文章
linux环境下apache配置虚拟站点
查看>>
ACM — 辗转相除法(Euclidean algorithm)求最大公因数(GCD)
查看>>
实例讲解async的generator实现
查看>>
Friday Q&A 2016-02-19: 什么是安全区域?
查看>>
vertx的一些问题
查看>>
将json字符串转化为json对象(需要引入json2.js框架)[转]
查看>>
python常用的包
查看>>
[译] 学习如何构建自动化、跨浏览器的 JavaScript 单元测试
查看>>
根治JavaScript中的this-ECMAScript规范解读
查看>>
协议与代理之间的阐述
查看>>
Kubernetes 1.2.0 发布,Docker集群管理驶入快车道
查看>>
在CentOS下,利用FFMPEG对视频进行转码
查看>>
SublimeText3系列(3)- HTML-CSS-JS Prettify美化代码&Markdown Preview写作
查看>>
理解 Redux
查看>>
填一填用了半个月 ionic 遇到的坑
查看>>
[译] 用 Haskell 写简单的 Monadic Parser
查看>>
bling_hash——Node.js 字符串哈希的包
查看>>
谷歌 .dev 顶级域名正式开放
查看>>
Android Q 将获得大量的隐私保护功能
查看>>
Android Volley库源码简析(Image Request部分)
查看>>