数据挖掘应用

作者:find goo
链接:https://www.zhihu.com/question/20751219/answer/307529819
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

不同的行业对于数据挖掘的理解是不一样的,学习的东西也是不一样,没有一种算法可以打包天下,根据需要学习一些,另外的泛泛了解一下。我说一下我知道的。

一、经济金融行业,多为时间相关数据,如每个月的gdp,每个月的发电量什么的,在金融理论上有很多算法,如投资组合上有组合优化理论,时间序列分析,随机过程。

二、天文学,数据的数字很大,如引力波数据,可以用对数降低维度,光谱数据也有很多算法。

三、炒股,也就是量化数据分析,很多是计算相关系,通过加速度来预测什么的,统计数据分析方法,方法很多,也是五花八门。

四、企业管理,多是财务数据,销售数据,生产数据等ERP数据,这些数据也有时间连续性,分析个趋势线,占比什么的好做决策,可以用一些机器学习的预测算法,分类算法,规划算法,运筹学算法。

五、传感器数据,主要是信号分析与处理,什么FFT变换,小波变换,卡尔曼滤波等。

六、电子信号数据,主要应用到复数变换,拉普拉斯变换,PID算法等

七、电子商务,可能用到前面的企业管理里的算法,数据量多时还有大数据分析算法,如hadoop,spark的相关的算法,多做分类分析,广告推荐,需求挖掘。

八、图形分析,主要有图形处理算法,特征提取算法,深度学习算法,卷积算法等。

九、视频分析,主要有人脸识别算法,特征追踪算法,行为分析算法,智能识别等,视频分析多是一种流算法或二维图像算法。

十、爬虫搜索,主要有图关系算法,相似度,相关性算法,文本分类,文体情感内容分析等。

十一、实时防御系统,如防火墙,预警系统,主要是窗口分析,流分析,如贝叶斯分类算法分析垃圾邮件。

十二、雷达算法,类似医学信号处理,脑电,肌电,心电,各种光图,这种二维图像,目前应用深度学习是热点。

十三、数据库算法,主要为分析结构化数据,有决策树算法,聚类分析算法,关联规则算法,顺序分析算法,时序算法,BP神经网络算法,逻辑回归,线性回归等。

十四、机器学习,主要为依据过去数据分析未来数据问题,如语音识别,图像识别,翻译,下棋,自动驾驶这种数据量大而不纯,实现人类的智能判断问题,遗传算法,决策树,随机森林,回归分析,SVM,朴素贝叶斯,K邻近算法,Adaboost 算法,神经网络,马尔可夫分析,模糊数学等。

十五、深度学习,主要是分析二维图像多维图像这种数据量大的算法,深度学习无需特征提取无需人为分析,支持原始数据直接输入,再由系统输出,需要较大的运算量,往往用显卡或神经网络芯片来加速运算。

不要指望能把数据分析学到家,各个行业面对的数据是不一样的,因为都是各个行业的专业人员干的活,对一般分析算法可以了解一下,多一件武器可以解决一些问题,很多时候一些方法都是相通的需要灵活运用,如物理中的加速度用于炒股就是类似MACD这种线,用于信号分析也是可以用小波变换一下再用这种加速度来预测,小波变换也可以用于图像分析,病毒的汇编代码可以先生成一个图片再用深度学习系统来分析。

airflow

https://www.jianshu.com/p/75c64b63122b  调研airflow

http://dockone.io/article/9364                      airflow使用

https://www.cnblogs.com/cord/p/9450910.html  airflow介绍

https://www.douban.com/note/620024057/ 生成环境使用

https://zhuanlan.zhihu.com/p/43383509   实战总结

 

python -c “from cryptography.fernet import Fernet;

print(Fernet.generate_key().decode())”

export AIRFLOW__CORE__FERNET_KEY=oNu9XwewQNyx9mAJT2vZvtm3qzPRZIWRqwk9hSVch4A=

set @@global.explicit_defaults_for_timestamp=on;

https://blog.csdn.net/jk_gome/article/details/97932222  实战

https://blog.csdn.net/frone/article/details/82659105  时间

 

mysql问题 https://www.jianshu.com/p/939eb5157e83

alter user 'root'@'localhost' identified with mysql_native_password by 'password'; 
flush privileges;

删除kafka的topics

参考:

http://www.bubuko.com/infodetail-2859810.html

https://blog.csdn.net/russle/article/details/82881297

https://blog.csdn.net/dianyueneo/article/details/37527087

https://blog.csdn.net/little_fxc/article/details/98494263

<code>

kafka-topics.sh –delete –zookeeper localhost:2181 –topic `kafka-topics.sh –list –zookeeper localhost:2181`
while read line
do
echo $line
kafka-configs.sh –zookeeper localhost:2181 –alter –entity-name $line –entity-type topics –add-config retention.ms=1000
kafka-config.sh –zookeeper localhost:2181 –alter –entity-name $line –entity-type topics -add-config cleanup.policy=delete
kafka-topics.sh –delete –zookeeper localhost:2181 –topic $line
done < /opt/tmp.topics2

</code>