2018年1月28日 星期日

[HDFS] python hdfs套件使用


本範例使用python hdfs套件來串聯HDFS, 可對HDFS做一些檔案的檢查, 之後再使用spark將訓練完的model寫入HDFS


2018年1月27日 星期六

[Spark][ML] Feature Transformers 特徵轉換器

特徵值處理是資料工程中的一個重要環節, 用來將資料轉換為MLlib需要的格式, Feature Transformers為Spark所提供相當方便的工具, 本篇是使用Dataframe格式將官網範例做個測試


[Cassandra] 監控與維運

介紹C*監控與維運常用command與用法



[Cassandra] 基本觀念

介紹Cassandra基本觀念, schema設計與一些常見的名詞解釋

[Spark] dataframe 基本統計(轉貼)

Spark dataframe 基本統計方法, 整理幾個重點保存下來, 包含:隨機數據生成.  總結和描述性統計. 樣本協方差和相關性. 交叉分類匯總表. 頻繁項. 數學函數


[Spark] Spark效能優化(未完成)

Spark效能優化

[Cassandra] 基本安裝方式


介紹Cassandra基本安裝方式

[Kafka] 基本安裝方式 - 手動安裝


Apache Kafka是一個分散式的訊息處理framework, 透過publish來發佈message,以及subscribe來訂閱取得message, 這裡提供簡單的安裝方式.


[Python] 常用基本語法

Python基本用法, 快速查詢用, 另外DataCamp有提供相當多資料科學學習資源, 也有Python cheat sheet可供下載, 在此附上連結


2018年1月26日 星期五

[Spark] 從關聯式資料庫存取資料的方法--使用JDBC使用

JDBC 目的是連結MSSQL,MYSQL等關聯式資料庫取得資料表的資料並傳入Spark的dataframe格式當中, 本篇文章簡單描述安裝設定的過程與spark中使用的方式