ぺちんぶら

  • アーカイブ
  • RSS

新聞比べ読みをしたらいいとトラックバックがあったんだけど*1。

僕も日経の何がいいかよくわからん。エライ人が日経嫁とかウルサイんですね。僕も言われたことあります。

あんなもの自分で読むとストレスたまるので、とりあえずプログラムに読ませてみた。

日経の社説を取得するプログラム

#!/usr/bin/env ruby
#日経新聞の社説。
require 'rubygems'
require 'mechanize'

m = Mechanize.new
m.get "http://s.nikkei.com/yuWJm2"
#m.page.search('/html/body//h2[contains(., "社説")]').first.parent
list = m.page.search('//h4/a').map{|e| [e.text,"http://s.nikkei.com/nKGjqr"+e["href"]] }
list.each{|e| 
    m.get e[1]
    title = m.page.search('h4.cmn-article_title.cmn-clearfix').text.strip
    date  = m.page.search('h4.cmn-article_title.cmn-clearfix').text.strip
    body  = m.page.search('div.cmn-article_text.JSID_key_fonttxt').text.gsub(/\t/, "")
    open("#{title}-#{date}.txt","w"){|f| f.write body}
}

Rubyに読ませてみた。

f:id:takuya_1st:20120221031851j:image(スクリーンショット 2012-02-21 3.18.12)

Rubyに代わりに読んでもらおう。

$KCODE ='u'
system("cat *.txt > all.nikkei")
text = open("all.nikkei").read
regex = /[一-龠]+|[ぁ-ん]+|[ァ-ヴー]+|[a-zA-Z0-9]+|[a-zA-Z0-9]+/
words = text.scan regex
counts = Hash.new(0)
words.each{|e| counts[e]  =  counts[e] + 1 }
sorted = counts.to_a.sort{|a,b| b[1] <=> a[1]}
sorted.each{|e| puts "#{e[0]}=>#{e[1]}"}
puts "-"*10
puts words.size

結果

「てにをは」などがこれだけ

の=>426 を=>305 が=>187 に=>180 は=>158 で=>86  と=>57  も=>56  や=>53  な=>51  だ=>39  い=>37 し=>35  する=>33 した=>31 り=>26 る=>25 
キーワードはこんな感じ。
ガス=>25 年=>23 政府=>22 日本=>22 
天然=>16 高=>15 人=>15 東電=>15 強=>13 考=>12 続=>12 得=>11 問題=>11 受=>11
中国=>11
対応=>10
研究=>10
エネルギー=>10
合=>10
必要=>10
上=>9
課題=>9
企業=>9
日銀=>9
電力=>8
送電網=>8
テロ=>8
温度計=>7


結果

今週の日経さんは「電力と日本と、政府と、中国」にご執心で、「高い〜」や「強い〜」が好きなようですね。そしてやたら天然ガスにご執心です。


これだけでもう何書いてあるか想像が付くわ。。。

tf/idf的には逆も見たいところ。

一回だけ出てくる、特徴語を見たらなんと「国会」が一回だけ。まぁ◯◯党や◯◯大臣というもっと具体例で言及してるんかねぇ。でもそれ政府なんだよねぇ。やっぱ国会は国会の機能は果たしてないってことか。

TPP、FRBやメルコジへの言及は少ないなぁ。

*1:http://bit.ly/w5SNap

日経の社説を一気に取得する。自分で読むのはバカバカしいからRubyに日経を読ませる。 http://bit.ly/wmiE2U (via redtower)

(katoyuuから)

出典: redtower

  • 3ヶ月前 > redtower
  • 716
  • 固定リンク
  • Share
    Tweet

716 Notes/ Hide

  1. kkuray3knがusaginobikeからリブログしました
  2. kayatokasasuscrapbookがusaginobikeからリブログしました
  3. ynakajimaがtezcatlipoca453からリブログしました
  4. ryuuyaがこの投稿を「スキ!」と言っています
  5. dragogazerがfirebumからリブログしました
  6. prantaso-ginzaがこの投稿を「スキ!」と言っています
  7. yoruyoruがusaginobikeからリブログしました
  8. tezcatlipoca453がこの投稿を「スキ!」と言っています
  9. tezcatlipoca453がusaginobikeからリブログしました
  10. long-tweetがusaginobikeからリブログして、コメントを追加しました:
    何か既製の、単に情報収集目的で読んだり聴いたり観たりしているメディアに関しては、もうこれで充分なんじゃないか?と思った。 特に、恣意的な情報操作については(アルゴリズムがバレる迄は)上手くフィルタリングできそうだし、むしろベターかも。
  11. usaginobikeがgtokioからリブログしました
  12. yomeiriがこの投稿を「スキ!」と言っています
  13. mocrlbmutがこの投稿を「スキ!」と言っています
  14. bigfacesがoharicoからリブログしました
  15. firebumがoharicoからリブログしました
  16. dante35がこの投稿を「スキ!」と言っています
  17. oharicoがshinodddddからリブログしました
  18. tanakak06がhoronigaからリブログしました
  19. dog-masterがこの投稿を「スキ!」と言っています
  20. kabibouzuがtoyolinaからリブログしました
  21. shibuheiがhepton-rkからリブログしました
  22. 7tsukixがhepton-rkからリブログしました
  23. furafuniがこの投稿を「スキ!」と言っています
  24. tamootがhepton-rkからリブログしました
  25. hepton-rkがsaikiyoshiyukiからリブログしました
  26. saikiyoshiyukiがgakkieからリブログしました
  27. enjoylivingordieがtoyolinaからリブログしました
  28. ktsukagoがgakkieからリブログしました
  29. gakkieがglasslipidsからリブログしました
  30. dranktoomuchがこの投稿を「スキ!」と言っています
  31. precallがtoyolinaからリブログしました
  32. glasslipidsがtoyolinaからリブログしました
  33. eurekaaaaaaaaがtoyolinaからリブログしました
  34. toyolinaがmmtkiからリブログしました
  35. gmdraytがmmtkiからリブログしました
  36. mmtkiがotemoto-otumamiからリブログしました
  37. shin1-pがoharicoからリブログして、コメントを追加しました:
    こういうのでシステム的に各紙読んでいけば、どういう世論にしていきたいのかとか色々捗るのかも。
  38. henachokoがreservoirからリブログしました
  39. shis0k0nがこの投稿を「スキ!」と言っています
  40. tosh728がこの投稿を「スキ!」と言っています
  41. tosh728がchiisanaehonからリブログしました
  42. chiisanaehonがreservoirからリブログしました
  43. reservoirがこの投稿を「スキ!」と言っています
  44. reservoirがyunhからリブログしました
  45. yunhがgearmannからリブログしました
  46. c610がhiro-saku-goからリブログしました
  47. mujakoがnissingeppoからリブログしました
  48. nissingeppoがhimatbshizからリブログしました
  49. human-from-hellがこの投稿を「スキ!」と言っています
  50. trash-caseがhimatbshizからリブログしました
  51. もっと見る読込中…
← 前へ • 次へ →

Tumblrについて

Avatar ぱくぱく  もぐもぐ  リブログでたべます

フォロー

  • RSS
  • ランダム
  • アーカイブ
  • モバイル

Effector Theme by Carlo Franco.

Powered by Tumblr