前言:此文前半部分关于词云的定性描述较长,如果不感兴趣的可以直接拖动文章到后半部分的操作步骤。
“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(RichGordon)于年提出。“词云”就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。词云图过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
简单来说,所谓词云,就是利用语言分析技术,对大数据文本进行词频分析,并生成可视化图像的技术。词云将词语按照一定顺序和规律进行排列,如按照频度递减或者字母顺序排列,并以文字的大小代表词语重要性。
词云不仅用于展示标签,也多用于呈现文本的关键词语,以帮助人们简明扼要地了解文本的大体内容。除了用于标签或关键词的可视化呈现,词云还可以展示更为复杂的文本信息,例如文本集合间的关系、文本内容随时间的变化等。
从词云的形式上来看,最初的词云大多将文字一行一行地水平排列。自年起,照片分享网站Flickr便采用了这一形式对用户标注的用以阐述照片内容的标签进行展示,并通过文字大小表示一个标签的流行程度。随后,网络书签应用del.icio.us也采用了词云展示用户标注的大量社会化标签。
随着越来越多的网站开始使用词云,它已逐步成为Web2.0时代的一个显著标识。随后出现的词云遵循了更加复杂和美观的布局,Wordle便是典型代表。在通过Wordle生成的词云中,词语的布局遵循了更为严格的算法,词语可以被水平或者竖直排列,词语和词语之间的空隙被充分利用,最终达成内部紧凑、轮廓明显的视觉效果。
词云图作为一种数据可视化方式,其数据来源主要是由文本产生。同其他量表类数据可视化方式一样,词云图同样具有美观易懂的特点,它能够通过关键词的排列集合以及凸显来帮助读者在掌握轮廓的同时把握中心。
同时,词云图的形状也慢慢从最一开始的简单几何图形转变到现在更加具有个性的形状,地图、人物肖像、动物、交通工具等等。紧扣文本主题的词云形状不但能够达到主题的整体统一,也能够提升读者的阅读兴趣,达到信息的有效传播。
在一个越来越开放透明、公众和媒体拥有同步获取大数据能力的时代,在图阅读、浅阅读盛行的时代,媒体的价值在于将那些看起来杂乱无序的数据进行筛选、分析、解读,让读者“见所未见”,和读者一起发现数据背后的真相。大数据采之为财富,存之则如粪土。未经分析、挖掘的大数据,百无一用。
不能体现主题的词云图是没有灵魂的,因此词云图文本的选择就尤为关键,好的词云图能够做到让读者看图明义,一眼抓到主题。年新华社新媒体专线首次采用“词云”技术报道全国两会,由清华大学计算机系自然语言分析实验室开发的中文“词云”就像一把打开数据之门的钥匙——十万字的文本,“读懂”只需几秒钟,还能飞快生成“趋势化、可视化”的图表。新华社采编人员和清华大学年轻的工程师们共同努力写出的稿件中,词云技术分别被用来分析文本本身,得出带有趋势性的结论,并配以精准解读。
随着近年来词云这一概念越来越火,词云制作工具也有了更多的选择。国外有诸如Wordle、WordItOut、Tagxedo、Tagul、ToCloud等制作工具,国内也有图悦、BDP个人版等在线或终端制作工具可供选择,这些词云制作工具各有优缺点,但是都能满足基本制作需要。
笔者今天选择的词云在线制作工具是wordart网站,之所以选择这个网站的原因主要是因为该网站对于词云制作分步骤完成且每步的操作引导及可选择项比较丰富,即对新手友好又能满足一定的个性化需求。稍显美中不足的是该网站没有中文界面,好在界面并不复杂,步骤也简单易懂,稍作熟悉就可以上手制作属于自己的词云图了。本文旨在通过对于wordart网站制作词云图的步骤进行简易讲解,帮助读者理解词云图制作的思路过程及逻辑顺序,从而达到触类旁通的效果,能够自主选择最适合自己要求的词云制作工具。
提示:真正的词云制作基本步骤应该是1.选择文本,多为一篇或多篇相关文章,网络爬取的文本集合等;2.对文本利用软件进行分词处理,分词规则需要考虑行业习惯以及专业性质或者想制作词云图的主题要求;3.对已拆分的关键词进行删除无意义词以及合并同类词处理(此步需谨慎考虑,从严谨性来说删除合并操作对于数据整体完整性势必有一定影响);4.对于保留的关键词进行词频统计;5.根据统计出的词频制作词云图。本文教程仅涉及最后一步,词云图制作具体操作步骤。
操作步骤
1.登陆注册wordart网站。
转载请注明地址:http://www.1xbbk.net/jwbjj/2214.html