Mr.好好吃的資料遊樂園: 1月 2018

2018年1月28日星期日

[HDFS] python hdfs套件使用

本範例使用python hdfs套件來串聯HDFS, 可對HDFS做一些檔案的檢查, 之後再使用spark將訓練完的model寫入HDFS

閱讀更多 »

2018年1月27日星期六

[Spark][ML] Feature Transformers 特徵轉換器

特徵值處理是資料工程中的一個重要環節, 用來將資料轉換為MLlib需要的格式, Feature Transformers為Spark所提供相當方便的工具, 本篇是使用Dataframe格式將官網範例做個測試

閱讀更多 »

[Cassandra] 監控與維運

介紹C*監控與維運常用command與用法

閱讀更多 »

[Cassandra] 基本觀念

介紹Cassandra基本觀念, schema設計與一些常見的名詞解釋

閱讀更多 »

[Spark] dataframe 基本統計(轉貼)

Spark dataframe 基本統計方法, 整理幾個重點保存下來, 包含：隨機數據生成. 總結和描述性統計. 樣本協方差和相關性. 交叉分類匯總表. 頻繁項. 數學函數

閱讀更多 »

[Spark] Spark效能優化(未完成)

Spark效能優化

閱讀更多 »

[Cassandra] 基本安裝方式

介紹Cassandra基本安裝方式

閱讀更多 »

[Kafka] 基本安裝方式 - 手動安裝

Apache Kafka是一個分散式的訊息處理framework, 透過publish來發佈message，以及subscribe來訂閱取得message, 這裡提供簡單的安裝方式.

閱讀更多 »

[Python] 常用基本語法

Python基本用法, 快速查詢用, 另外DataCamp有提供相當多資料科學學習資源, 也有Python cheat sheet可供下載, 在此附上連結

閱讀更多 »

2018年1月26日星期五

[Spark] 從關聯式資料庫存取資料的方法--使用JDBC使用

JDBC 目的是連結MSSQL,MYSQL等關聯式資料庫取得資料表的資料並傳入Spark的dataframe格式當中, 本篇文章簡單描述安裝設定的過程與spark中使用的方式

閱讀更多 »

2018年1月25日星期四

[Python] code style(轉貼)

網路上轉貼的Python命名規則, 統一程式碼風格使用

閱讀更多 »

訂閱：意見 (Atom)