1.目錄 1編程和數(shù)據(jù)科學(xué)——一個(gè)新的工具集1 什么是數(shù)據(jù)科學(xué)1 數(shù)據(jù)科學(xué)會(huì)長(zhǎng)期存在嗎?2 為什么數(shù)據(jù)科學(xué)正在興起?3 數(shù)據(jù)科學(xué)與開(kāi)發(fā)人員有什么關(guān)系?4 將這些概念付諸實(shí)踐5 深入研究一個(gè)具體的示例6 數(shù)據(jù)管道藍(lán)圖7 數(shù)據(jù)科學(xué)家應(yīng)該具備什么技能?9 IBM Watson Deep QA10 回到Twitter帶#標(biāo)簽的情感分析項(xiàng)目13 從構(gòu)建第一條企業(yè)級(jí)數(shù)據(jù)管道中汲取的經(jīng)驗(yàn)教訓(xùn)15 數(shù)據(jù)科學(xué)策略16 Jupyter Notebook是我們的戰(zhàn)略核心18 為什么Notebook這么流行?19 本章小結(jié)21 2Python和Jupyter Notebook為數(shù)據(jù)分析提供動(dòng)力23 為什么選擇Python?23 PixieDust入門(mén)27 SampleData——一個(gè)用于加載數(shù)據(jù)的簡(jiǎn)單API31 用pixiedust_rosie整理數(shù)據(jù)36 Display——一個(gè)簡(jiǎn)單的交互式數(shù)據(jù)可視化API42 過(guò)濾50 用PixieApp消除開(kāi)發(fā)人員和數(shù)據(jù)科學(xué)家之間的壁壘52 操作化數(shù)據(jù)科學(xué)分析的體系結(jié)構(gòu)55 本章小結(jié)59 3使用Python庫(kù)加速數(shù)據(jù)分析60 PixieApp深度剖析61 路由62 生成路由請(qǐng)求65 GitHub項(xiàng)目跟蹤示例程序67 在表格中顯示搜索結(jié)果70 使用pd_entity屬性調(diào)用PixieDust display()API78 使用pd_調(diào)用任意Python代碼85 用pd_refresh讓?xiě)?yīng)用程序更具響應(yīng)性90 創(chuàng)建可重用的小部件93 本章小結(jié)94 4用PixieApp工具發(fā)布數(shù)據(jù)分析結(jié)果95 Kubernetes概述96 安裝和配置PixieGateway服務(wù)器97 PixieGateway服務(wù)器配置101 PixieGateway體系結(jié)構(gòu)105 發(fā)布應(yīng)用程序108 PixieApp URL中的編碼狀態(tài)112 通過(guò)將圖表發(fā)布為網(wǎng)頁(yè)來(lái)共享它們114 PixieGateway管理控制臺(tái)118 Python控制臺(tái)120 顯示PixieApp的預(yù)熱和運(yùn)行代碼121 本章小結(jié)121 5Python和PixieDust最佳實(shí)踐與高級(jí)概念122 使用@captureOutput裝飾器集成第三方Python庫(kù)的輸出123 使用@captureOutput創(chuàng)建詞云圖像123 增加模塊化和代碼重用126 使用pd_widget創(chuàng)建小部件128 PixieDust中的流式數(shù)據(jù)支持130 向PixieApp添加流處理功能134 添加帶有PixieApp事件的儀表盤(pán)下鉆功能136 擴(kuò)展PixieDust可視化141 調(diào)試148 使用pdb調(diào)試Jupyter Notebook148 使用PixieDebugger進(jìn)行可視化調(diào)試152 使用PixieDebugger調(diào)試PixieApp路由154 使用PixieDust日志記錄排除問(wèn)題157 客戶(hù)端調(diào)試159 在Python筆記本中運(yùn)行Node.js161 本章小結(jié)165 6分析案例:人工智能與TensorFlow圖像識(shí)別167 什么是機(jī)器學(xué)習(xí)?168 什么是深度學(xué)習(xí)?169 開(kāi)始使用TensorFlow172 用DNNClassifier進(jìn)行簡(jiǎn)單分類(lèi)176 圖像識(shí)別示例應(yīng)用程序187 第1部分——加載預(yù)訓(xùn)練的MobileNet模型188 第2部分——為我們的圖像識(shí)別示例應(yīng)用程序創(chuàng)建一個(gè)PixieApp196 第3部分——集成TensorBoard圖形可視化200 第4部分——使用自定義訓(xùn)練數(shù)據(jù)重新訓(xùn)練模型206 本章小結(jié)217 7分析案例:自然語(yǔ)言處理、大數(shù)據(jù)與Twitter情感分析218 ApacheSpark入門(mén)218 Apache Spark體系結(jié)構(gòu)219 將Notebook配置為使用Spark220 “Twitter情感分析”應(yīng)用程序222 第1部分——以Spark Structured Streaming獲取數(shù)據(jù)223 數(shù)據(jù)管道的體系結(jié)構(gòu)圖224 Twitter的身份驗(yàn)證224 創(chuàng)建Twitter流226 創(chuàng)建Spark Streaming DataFrame229 創(chuàng)建和運(yùn)行結(jié)構(gòu)化查詢(xún)232 監(jiān)控活動(dòng)流式查詢(xún)234 從Parquet文件創(chuàng)建批量DataFrame236 第2部分——用情感和提取的最相關(guān)實(shí)體來(lái)豐富數(shù)據(jù)238 IBM Watson Natural Language Undersanding服務(wù)入門(mén)239 第3部分——?jiǎng)?chuàng)建實(shí)時(shí)儀表盤(pán)246 將分析重構(gòu)為它們自己的方法246 創(chuàng)建PixieApp249 第4部分——使用Apache Kafka和IBM Streams Designer添加可伸縮性258 將原始推文流到Kafka259 使用Streaming Analytics服務(wù)豐富推文數(shù)據(jù)263 使用Kafka輸入源創(chuàng)建Spark Streaming DataFrame270 本章小結(jié)273 8分析案例:預(yù)測(cè)——金融時(shí)間序列分析與預(yù)測(cè)274 NumPy入門(mén)275 創(chuàng)建NumPy數(shù)組278 ndarray運(yùn)算280 NumPy數(shù)組的選擇操作282 廣播284 時(shí)間序列的統(tǒng)計(jì)探索286 虛擬投資293 自相關(guān)函數(shù)(ACF)和偏自相關(guān)函數(shù)(PACF)294 將它們與StockExplorer PixieApp放在一起297 BaseSubApp——所有子PixieApp的基類(lèi)302 StockExploreSubApp——第一個(gè)子PixieApp304 MovingAverageSubApp——第二個(gè)子PixieApp306 AutoCorrelationsubApp——第三個(gè)子PixieApp309 ARIMA模型在時(shí)間序列預(yù)測(cè)中的應(yīng)用312 建立MSFT股票時(shí)間序列的ARIMA模型314 StockExplorer PixieApp第2部分——使用ARIMA模型添加時(shí)間序列預(yù)測(cè)323 本章小結(jié)336 9分析案例:圖形算法——美國(guó)國(guó)內(nèi)航班數(shù)據(jù)分析338 圖形概述338 圖形表示340 圖形算法341 圖形和大數(shù)據(jù)344 networkx圖形庫(kù)入門(mén)345 創(chuàng)建圖形345 可視化圖形347 第1部分——將美國(guó)國(guó)內(nèi)航班數(shù)據(jù)加載到圖中348 圖的中心性357 第2部分——?jiǎng)?chuàng)建USFlightsAnalysis PixieApp366 第3部分——向USFlightsAnalysis PixieApp添加數(shù)據(jù)探索功能376 第4部分——?jiǎng)?chuàng)建預(yù)測(cè)航班延誤的ARIMA模型386 本章小結(jié)399 10數(shù)據(jù)分析的未來(lái)與拓展技能的途徑400 前瞻性思考——人工智能與數(shù)據(jù)科學(xué)的未來(lái)展望401 參考資料403 附錄PixieApp快速參考405 注釋405 自定義HTML屬性408 方法413
|