作者:sexycoder
最近入門了一下scrapy,找了一個網站練手,半天的時間爬取了簡書20w用戶數據和40w的follow關系。這些存在mysql里面的閑著也是閑著,想做一些有意思的數據統計和社交關系分析。
最受歡迎的作者
我統計了簡書上面粉絲數最多和被喜歡次數最多的用戶,簡書上最受歡迎的作者,如下圖所示:
我把最受歡迎的作者的放到一張圖上面,橫坐標表示粉絲數,縱坐標表示被喜歡的次數,如下圖所示??梢院苊黠@的看出來,這些最受歡迎的作者里面,大多數的作者還是聚集在圖的左下角,but,還有幾個超級受歡迎的,他們分別分布在圖的右側和上側。他們分別是,劉淼,彭小六,簡黛玉。很可惜,截圖上不能附上作者的名字。
這是同濟最受歡迎的作者的原始數據,我也貼在這里,如下圖所示,數據爬取的時間是 2017年10月20日左右。下圖的這四列分別是,uid,昵稱,粉絲數,被喜歡數。
最能寫的作者
統計了發(fā)表文章數最多的top20作者,如下圖所示:
排名第一的這位孤鳥差魚 ( http://www.jianshu.com/u/a4bb86f4ba07),寫了1799篇文章?。∥业奶?!但是這里有一個bug,這位作者雖然能寫,但是每篇文章被喜歡的次數很低,基本上是個位數??赡苁且晃还陋歜ut高產的作者。
平均每個字被喜歡次數坐高的作者
從上面的一個統計里面吸取到的一個靈感,雖然上面的作者很能寫,但是被喜歡的次數卻很低,這一次統計的是平均每個字被喜歡次數坐高的作者。如下圖所示:
這個結果就更加意外了,排在前面的這幾個大哥,就寫了一個字,but 收獲了48個喜歡!?。。∶總€字被喜歡的比例是1:48?。?!于是,很好奇這位大哥,這一個字寫得是什么,跑去圍觀。。
用戶的粉絲數分布的比例
分析了一下每個用戶的粉絲數,絕大多數用戶的粉絲數只有10人以下,而粉絲數分布在[10,20]之間的用戶明顯少了很多,簡直是銳減?。?!這也基本上符合一個社交網絡的結果,絕大多數的人都是圍觀者,都是內容或者是消息的的接收者。擁有大量粉絲的人,往往很少,這一部分的人是這個社交網絡的核心,是信息或者是消息的創(chuàng)造者,擁有更加強大的話語權。

- 閃存普惠,一步到位!華為商業(yè)市場極簡全閃數據中心Pro+重磅發(fā)布
- 《企業(yè)數據治理實踐白皮書》發(fā)布,啟信寶聯合六大數交所共同編制
- 業(yè)界首個!華為數據中心自動駕駛網絡通過EANTC L4自智網絡等級測評
- AI模型的耗電量驚人 下一步是建設太空數據中心?
- 為什么制造商必須協調IT和OT,才能實現智能工業(yè)的成功?
- 打造AI時代先進算力底座,鯤鵬開發(fā)者峰會2025即將開幕
- 金山辦公宣布未來五年戰(zhàn)略:重建海外基地,優(yōu)化WPS Office用戶體驗
- 是德科技攜KAI系列布局AI新時代
- 微軟全球再裁6000人:無關績效,關乎未來
- 華為發(fā)布AI數據湖解決方案,助力企業(yè)加速擁抱AI
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。