当前位置:主页 > 网页游戏 > 正文

贾跃亭的公开信都喜欢说哪几个词?

  当贾跃亭发声时,他在说些什么?他说的话网民听进去了吗?

  2018年工作日第一天,贾跃亭凭借一封对《北京证监局责令贾跃亭回国履责通告》的回应函再次占据了各大科技、商业网站的头条。在回应函中,他提到美国FF公司融资已经取得了重大进展,并表示,“针对债务问题,我会尽责到底”。

  近半年,在乐视危机下,贾跃亭频频发声,而“债务”“责任”这些词似乎不绝入耳。尽管感官如此,文摘菌还是想用文本分析统计一下,在2016-2017年,贾跃亭的多次发言中,到底他最爱说哪些词,以及公众对他的看法有到底如何。

  文摘菌统计了2016-2017年贾跃亭公开发布的公开致辞,总共7次(次数太少我们就不用爬虫直接手动找了),包括新品发布、公司致辞和致用户信等,共15k字左右;同时,我们还搜集了全网“贾跃亭”相关舆情百万余条超过2个G的数据,以期了解公众对其看法。

  简而言之,我们想知道,2017年发了这么多公开信的贾跃亭,他说的话网民们听进去了吗?

  当然,整个分析过程本身也颇有趣,后台回复“贾跃亭”获取本次文本分析的所有数据和代码包哟~

  关键词云图:当贾跃亭发声时,他在说些什么?

  首先,文摘菌想看看,在这两年中,贾跃亭在公开发言中最喜欢使用的词语是什么。

  尽管贾跃亭的公开信字数略少,从文本分析中,文摘菌还是得出了一些有趣的信息。

  文本分析小贴士:对于关键词提取,词频统计是最常用的方法,而其文摘菌没有采取词频统计的方法,因为词频统计的逻辑是:一个词在文章中出现的次数越多,它就越重要。因而,笔者采用的是TF-IDF(term frequencyinverse document frequency)的关键词提取方法:它用以评估一字/词对于一个文件集或一个语料库中的其中一份文件的重要程度,字/词的重要性会随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

  由此可见,在提取某段文本的关键信息时,关键词提取较词频统计更为可取,能提取出对某段文本具有重要意义的关键词。

  文摘菌利用jieba从语料中抽取出关键词,并选取TOP500关键词来绘制关键词云图。

  其中排名前十的词语分别是:乐视、生态、硬件、我们、互联网、上市公司、用户、战略、实现、价值。

  词汇分散图:用户、变革少了,责任和债务来了

  接下来,文摘菌想要了解贾跃亭在近两年发布的公开信中,有哪些词汇随时间变化,出现频率有所改变。

  专(zhuang)业(bi)一点说,就是某些关键词汇基于时间的数量分布和他们的位置信息(the location of a word in the text),利用Lexical dispersion plot(词汇分散图)进行分析,可以揭示某个词汇在一段文本中的分布情况(Produce a plot showing the distribution of the words through the text)。

  文本分析小贴士:文摘菌先将待分析的文本(贾跃亭的公开发言)按时间顺序进行排列,分词后再进行Lexical Dispersion Plot分析。因此,文本字数的累积增长方向与时间正向推移的方向一致。图中纵轴表示词汇,横轴是文本字数,是累加的;蓝色竖线表示该词汇在文本中被提及一次,对应横轴能看到它所处的位置信息,空白则表示无提及。蓝色竖线的密集程度及其位置代表了该词汇在某一阶段的提及频次和所在年月。

  从上面的关键词和主题词中,文摘菌挑拣出“乐视”“资金”“变革”“生态”“布局”“硬件”“用户”“承诺”“责任”“质疑”“债务”“歉意”这10个关键词汇进行分析,结果如下:

  从分析结果可以看出,乐视生态作为品牌词汇,在贾跃亭2016年到2018年的公开信中频频出场。在2017年底最近一次公开信中,乐视生态依然是关键词之一。

  而硬件用户变革这些偏“营销“的词语,在2016年,不管是新品发布还是公司致辞,都曾长期成为贾跃亭公开信的”爱词“。而最近,尽管依然有所提及,但出现频率非常之低。

  相反,在最近一两次发言中,首次出现了歉意债务责任这样的字眼。

  从打“营销”牌到“情怀”牌,个中缘由,文摘菌在此不做过多评论,各位客官可自行体会。

  贾跃亭的话,网民们听进去了吗?

  贾跃亭说了什么不重要,关键是大家有没有听进去。

  要回答这个问题,文摘菌统计了客户端、微博、论坛、网页和微信公众号上与“贾跃亭”相关的所有信息,并进行了分析,生成了关键词云如下:

  数据统计工具:新浪微舆情 数据统计时间:2017年1月1日-2017年12月31日