目录 卷首语 前言 自序 第一章 发票货物劳务名称识别 第一节 数据准备 第二节 HanLP识别算法 第三节 小数据集测试 第四节 GPU加速 第五节 词库组织 第二章 发票交易网络分析 第一节 汇总交易网络与闭环检测 第二节 Neo4j数据预处理与加载 第三节 产业网络转换 第四节 最短路径算法查找主要资金链 第五节 最小树形图查找主要供应链 第六节 开发K最小生成树Neo4j插件 第七节 Neo4j自定义过程之有向树形图 第八节 产业集群分析 第九节 连接预测:图算法增强机器学习 第十节 节点分类:图算法增强机器学习 第三章 发票商品税收分类代码分析 建立发票货物劳务名称到商品税收分类代码的映射算法,贯通微观与宏观,空缺待补,列在此处是想说明此章非常重要。 第四章 个税明细申报数据分析 第一节 数据抽取脱敏与合并 第二节 个税起征点调整测算 第三节 高收入人群识别与税制分析 第四节 个税宏观分析 第五节 风险模式识别与排序 第六节 机器学习 第七节 总结 第五章 社保明细申报数据分析 第一节 个税社平工资与缴费工资基数 第二节 计费工资:社保费遵从度分析 第三节 参保人员流动性分析 第四节 扩面分析:个税社保比对模型 第五节 欠费分析 第六章 时间序列分析 第一节 ARIMA模型 第二节 GARCH模型 第三节 Python ARIMA模型 第四节 Orange时间序列分析 第五节 数据标签:PAI Studio个税ARIMA风险识别概念模型 第七章 GIS应用 第一节 Python地图基础 第二节 GIS与业务数据融合 第三节 税务地图 第四节 税务登记地址分析 第五节 税务登记地址统计 第六节 GIS宏观税收分析 第七节 R语言GIS基础 第八章 回归分析 房价预测模型 第一节 集成回归与深度学习 第二节 超参数调整 贝叶斯优化 第九章 深度学习 第一节 循环神经网络RNN时间序列预测 第二节 二维卷积神经网络CNN照片分类 第十章 文本挖掘 第一节 Orange文本挖掘 第二节 可视化微博数据挖掘 第三节 微信情感分析与挖掘 第十一章 用Shiny APP发布分析结果 第一节 开发Shiny APP并嵌入宿主网页 第二节 Shiny APP连接云端 第三节 Shiny 网络分析APP 第四节 Shiny 发票货劳名称识别 APP 第五节 Shiny 房价回归分析APP 第六节 小结 第十二章 用R markdown生成深度分析报告 第一节 R markdown运行环境安装配置 第二节 Shiny 交互式动态深度分析报告 第三节 Shiny生成可下载的动态深度分析报告 第四节 在 R markdown报告中混合使用各种语言 第五节 用 R markdown生成动态幻灯片 附录一 软件与数据 一、 Anaconda3安装 二、 Spyder、Orange、Glueviz集成 三、 Rstudio Rattle安装 四、 Rstudio Linux Server 安装配置 五、 Keras与TensorFlow安装 六、 Shiny Server安装配置 (一)、安装CentOS的注意事项 (二)、从源码编译安装R (三)、安装Rstudio-server (四)、安装Shiny包 (五)、安装常用的软件包 (六)、安装shiny server (七)、发布APP到Shiny Server (八)、连接阿里云 (九)、安装Shiny机器学习教学App Radiant (十)、安装anaconda3 (十一)、用Rstudio运行Python (十二)、安装Tomcat (十三)、安装Jupyterhub2.0.0 (十四)、为Rstudio Linux Server与Jupyterhub等配置SSL连接 (十五)、安装Neo4j中文社区版并配置SSL (十六)、安装Rserve并配置SSL 附录二 参考书籍