欢迎访问Jean的数据分析技术研究网站!

网站软件架构

在线交互式示例

主要是《图解税收大数据分析》一书的示例,用Shiny APP及Tomcat Web APP封装并在线部署,以便感性体验。
其中墨尔本房价回归模型演示了上面架构图中Java EE集成底层数据分析应用的三条路径:
1、Java EE APP嵌入Shiny APP,即时交互,图文并茂。
2、Java EE APP通过Rserve调用R语言,充分利用R语言的作图能力及Rmarkdown生成分析报告的能力。
3、Java EE APP通过gRPC调用Python,紧耦合的方式适用于比较成熟的数据应用模型,只需要数据结果的场景。
其它示例则演示了连接云数据库、图数据库、GIS、文本数据的应用场景,以及NLP深度学习的落地应用场景。
您需要导入服务器自签数字证书的根证书到浏览器受信任颁证机构列表中以便通过SSL加密连接体验本站的在线实例,具体操作请百度一下。
这是一个完全状态的实验服务器,除了没有GPU,不过演示用途已经足够。另外一个带GPU的实验服务器已经装好,需要时也可以启动演示。

Shiny APP 嵌入示例

sliderInput mtcars示例,简单的Tomcat Web APP中嵌入Shiny APP例子,以便感性了解。
微博词云示例,文本分析例子,wordcloud2生成的词云图是一个htmlwidget,在JavaScript库的支持下有动态交互的能力。
Radiant示例,Radiant是一个运行在Shiny上的R语言可视化机器学习教学软件,各种数据探索与常用机器学习算法都有。小hack一下,增加了从云端加载数据的能力。
发票货劳名称识别示例,这个实例跑在CPU上,使用HanLP NLP深度学习预训练模型,底层是深度学习框架PyTorch或Tensorflow支持。
GIS地理编码服务示例,这个例子在Shiny APP中用IFRAME嵌入各大GIS服务商的JavaScript API地图调起服务。
墨尔本房价回归模型示例(Python模型),这个实例也可以跑在GPU上,不过跑在CPU上的性能更好一点,可能是数据集的问题,数据太少了;也可能是GBDT回归算法的特点,需要进一步了解。
墨尔本房价回归模型示例(R语言Tidy模型),这是把上例中底层的Python回归模型用R语言Tidy Models工具套件来实现,从Java->R->Data直通到底,演示性质暂时只有SVM、随机森林、XGB 3种算法。

Neo4j 网络分析示例

国内机场航线网络分析示例 2D,浏览器端可视化使用visNetwork
国内机场航线网络分析示例 3D,浏览器端可视化使用three.js以及3d-force-graph.js
国内机场航线网络分析示例 环线,这是寻找具有特殊特征子网的分析,使用了我开发的朱刘算法有向图最小树形图插件及用户自定义函数等。

Shiny R Markdown动态文档

监控仪表板示例,参数与时间等多维度动态仪表板,可以直接大屏使用,echarts图表应有尽有。这是个完整的框架,按需要选用图表、设置好布局、连接数据即可,具体可参阅我的文章《用R markdown 生成仪表板》《在Shiny中使用Echarts》,以及echarts的示例文档
多种语言混合使用动态文档,在R markdown中混合使用R、Python、SQL、JavaScript、HTML、CSS等6种语言。
IOSlides网页幻灯片, 可以嵌入Shiny的交互式组件,使幻灯片具有动态的交互能力。

Java EE集成Rserve示例

微博热词,返回一个词频统计Excell数据表格,表格的浏览编辑由客户端的Excell等自动打开执行。
微博词云,返回一个词云统计图。在服务器端后台运行headless浏览器,测试与截图WEB应用程序,这是比较有用的自动化测试技术。
墨尔本房价分析报告,选择分析算法与异常值阀值,返回PDF格式的分析报告。调用Python模型生成数据,R markdown生成报告。

Java EE集成Python示例

gRPC Hello World示例,开源远过程调用框架gRPC自带演示例子,从Java端通过SSL+口令验证通道调用服务器端Python程序,跟输入的用户名打招呼。
gRPC 墨尔本房价示例,从Java端通过SSL+口令验证通道调用服务器端Python程序,根据用户选择的算法及异常值阀值返回房价异常的房屋列表,并查询显示相应的原始数据。与上面的Shiny APP相比,不需要动态交互,不画拟合图,只需返回数据。

研究文章(美篇)

新的研究文章(简书)

原有50多篇,根据单位相关部门的建议,收回了包含本单位涉税数据的部分文章,剩下29篇,主要是Shiny、NLP、GPU、GIS、Neo4j、Orange、深度学习、回归分析、时间序列分析等领域不涉及本市具体税收数据的实例与学习文章。受篇幅与手机画面所限,以截图为主,源码不完整,主要是交流介绍的性质,面向业务与技术同行。

微观税收分析专著:《图解税收大数据分析》

这本书是过去十年的一个阶段性总结,以上面的研究文章为主,分专题整理了历年在微观税收分析领域应用当代大数据分析技术的学习和研究,汇编成电子书,包括完整的源码,主要面向会编程的数据分析领域技术同行。因包括涉及本单位的涉税数据,全书还没有发布,适当时候会陆续发布一些不包含本单位涉税数据的章节。那些包含相对陈旧涉税数据时效已失的章节,以后沟通一下,看看能否批准发布。源码不涉及数据,发布应该没有问题。

在浏览器链接中下载各章,不知为何会丢失程序代码块中的样式设置,下载保存的文件与服务器端文件也不一致。可以通过浏览目录下载,这样就是与服务器端文件一致的带代码块样式的格式。

封面、卷首语、前言及自序
目录 源码
第一章 发票货物劳务名称识别 源码清单
第二章 发票交易网络分析 源码清单
第三章 发票商品税收分类代码分析 本章暂缺
第四章 个税明细申报数据分析 源码清单
第五章 社保明细申报数据分析 源码清单
第六章 时间序列分析 源码清单
第七章 GIS应用 源码清单
第八章 回归分析 房价预测模型 源码清单
第九章 深度学习 源码清单
第十章 文本挖掘 源码清单
第十一章 用Shiny APP发布分析结果 源码清单
第十二章 用R markdown生成深度分析报告 源码清单
附录一 软件与数据
附录二 参考书籍
底封 大数据之诗

GitHub项目

Orange3 定制项目,实现Orange3与Glueviz等集成,Orange Geo支持国内地图,Orange network与data table互相转换等。
高德地图R语言接口包,参考百度地图R语言接口包开发。

译著:《精通Shiny 用R语言开发交互式APP、报告与仪表板》 在线英文版

此书已完成翻译,并与东南大学出版社签订翻译出版合同。读者如果想阅读中文版全书,请关注出版社的出版发行信息。

Rstudio首席科学家Hadley Wickham写的《Mastering Shiny》系统而全面的详细介绍了Shiny APP开发与reactive 编程的原理和要点等方方面面,程序例子简单易行,深入浅出,是一本非常好的入门书籍。英文版已经在2021年5月由O’Reilly出版社出版,Github 上有作者免费的在线阅读版,有兴趣的人可以读一读原著。国内目前还没有介绍Shiny的中文书籍,译者这里尝试翻译一下,抛砖引玉,以方便有需要的人。不切之处,还请读者诸君不吝赐教校正。

封面与目录
译者序
欢迎与前言
第1部分 入门
第1章 您的第一个Shiny应用 练习题答案
第2章 基本用户界面 练习题答案
第3章 反应机制基础 练习题答案
第4章 案例学习:ER损伤 练习题答案
第2部分 Shiny 实战
第5章 工作流程
第6章 布局、主题、HTML
第7章 图形 练习题答案
第8章 用户反馈
第9章 上传和下载 练习题答案
第10章 动态用户界面 练习题答案
第11章 书签 练习题答案
第12章 Tidy计算
第3部分 深入反应机制
第13章 为什么是反应机制
第14章 反应图
第15章 反应组件
第16章 摆脱反应图
第4部分 最佳实践
第17章 一般准则
第18章 函数 练习题答案
第19章 Shiny模块 练习题答案 本章源码
第20章 R软件包 本章源码
第21章 测试
第22章 安全
第23章 性能

交流讨论:Jean, 2022-03-03

备案号:粤ICP备2022057531号, 2022-05-13

粤公网安备 44040202001333号,2022-05-20