目录
大数据.......................................................................................................................................................................3
云计算.......................................................................................................................................................................3
文本分析.................................................................................................................................................................. 4
文本特征提取.........................................................................................................................................................7
输入单词、id,输出词袋向量................................................................................................................7
理解词袋的表示方式,优缺点...............................................................................................................7
输入句子,给出 N-Gram 表示...............................................................................................................8
数据科学有什么难点...........................................................................................................................................9
数据科学解决问题的步骤..................................................................................................................................9
数据质量如何评估............................................................................................................................................. 10
数据质量评估存在的问题............................................................................................................................... 10
脏数据以及处理..................................................................................................................................................10
ETL(数据仓库技术).............................................................................................................................10
数据清洗和集成流程............................................................................................................................... 10
数据清洗............................................................................................................................................. 11
数据集成............................................................................................................................................. 12
探索性分析方法..................................................................................................................................................14
众包......................................................................................................................................................................... 14
数据分析................................................................................................................................................................15
流程................................................................................................................................................................15
Apriori/无监督学习.................................................................................................................................. 15
数据分析算法类型(关联/分类/聚类)...........................................................................................16
关联分析...................................................................................................................................................... 17
你知道的数据分析算法.......................................................................................................................... 17
支持度、置信度、提升度的计算........................................................................................................17
Hadoop.................................................................................................................................................................... 17
特性................................................................................................................................................................18
与 Spark 比较..............................................................................................................................................18
分布式存储........................................................................................................................................................... 19
与集中式存储比较....................................................................................................................................19
结构................................................................................................................................................................19
设计需求...................................................................................................................................................... 20
GFS........................................................................................................................................................................... 21
HDFS......................................................................................................................................................................... 21
优缺点........................................................................................................................................................... 21
相关概念...................................................................................................................................................... 22
HDFS...................................................................................................................................................... 22
NAMENODE 和 DATANODE................................................................................................................... 23
体系结构...................................................................................................................................................... 24
概述...................................................................................................................................................... 24
命名空间管理....................................................................................................................................25
通信协议............................................................................................................................................. 25
客户端..................................................................................................................................................25
局限性..................................................................................................................................................25
存储................................................................................................................................................................26
冗余数据保存....................................................................................................................................26
数据存取策略....................................................................................................................................27
错误与恢复........................................................................................................................................ 28
读、写........................................................................................................................................................... 29
从 HDFS 读取内容.............................................................................................................................29
MapReduce............................................................................................................................................................. 31
概述................................................................................................................................................................31
分布式并行编程............................................................................................................................... 31
简介...................................................................................................................................................... 31
工作过程...................................................................................................................................................... 32
概述...................................................................................................................................................... 32
各执行阶段........................................................................................................................................ 33
Combine.......................................................................................................................................................35
Shuffle 详解.....................................................................................................................................37
MapReduce 与 Spark 处理速度比较..................................................................................................39
归纳................................................................................................................................................................40
PersonalRank...................................................................................................................................................... 42
PageRank................................................................................................................................................................43
“反复改进原理”(迭代)是基本手段................................................................................................43
中枢值与权威值及其计算(HITS 算法).........................................................................................45
PageRank 含义及其计算 ........................................................................................................................ 45
PageRank 的同比缩减与统一补偿规则 ............................................................................................ 46
结构化数据、半结构化数据、非结构化数据..........................................................................................46
测量距离................................................................................................................................................................47
欧氏距离(Euclidean Distance)........................................................................................................47
曼哈顿距离(Manhattan Distance)................................................................................................ 48
编辑距离(Levenshtein)..................................................................................................................... 49
马氏距离...................................................................................................................................................... 50
ML..............................................................................................................................................................................50
KNN................................................................................................................................................................50
k-means/聚类............................................................................................................................................ 50
Choosing clustering dimension............................................................................................ 52
Linear-Regression.....................................................................................................................................53
https://www.jianshu.com/p/3a98f33113ac......................................................................................53
https://www.jianshu.com/p/54d1c0c79588.....................................................................................53
最小二乘法........................................................................................................................................ 53
损失函数............................................................................................................................................. 53
检测模型质量............................................................................................................................................. 53
过拟合/over-fitting...................................................................................................................................53
交叉验证...................................................................................................................................................... 54
无监督学习/监督学习...................................................................................................................................... 54
大数据
1. 大数据的四个特征/概念
a. 大量化:数据一直都在以每年 50%的速度增长,也就是说每两年就
增长一倍(大数据摩尔定律)
b. 快速化:从数据的生成到消耗,时间窗口非常小,可用于生成决策
的时间非常少
c. 多样化:大数据是由结构化和非结构化数据组成的
i. 非结构化数据类型多样:邮件、视频、微博、位置信息、链接
信息、手机呼叫、网页点击、长微博…
d. 价值化:价值密度低,商业价值高
i. 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有
一两秒,但是具有很高的商业价值
2. 大数据关键技术
a. 数据采集、数据存储和管理、数据处理和分析、数据隐私和安全
3. 大数据计算模式:
a. 批处理、流、图、查询分析
云计算
1. 云计算概念
a. 云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用
户只需要在具备网络接入条件的地方,就可以随时随地获得所需的
各种 IT 资源
2. 云计算的关键技术
a. 虚拟化、多租户、分布式存储、分布式计算
3. 云计算数据中心
a. 云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络
连接、环境控制设备、监控设备以及各种安全装置等
b. 数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等
各种硬件资源,为各种平台和应用提供运行支撑环境
c. 云计算以其动态扩展能力、高度的容错性能和可靠性,成为大数据
处理的理想平台
4. 云计算应用
文本分析
a. 政务云:部署公共安全管理、容灾备份、城市管理、应急管理、智
能交通、社会保障等应用实现信息资源整合和政务资源共享,推动
政务管理创新,加快向服务型政府转型
b. 教育云:有效整合各种教育资源,实现教育信息与资源共享,以及
教育资源深度挖掘等目标
c. 医疗云:推动医院与医院、医院与社区、医院与急救中心、医院与
家庭之间的服务共享,形成一套全新的医疗健康服务系统,从而有
效地提高医疗保健的质量
d. 中小企业:以低廉的成本建立财务、供应链、客户关系等管理应用
系统,大大降低企业信息化门槛,迅速提升企业信息化水平,增强
企业市场竞争力
– 句子切分和分词
– 为了对文本进行分析,首先需要把文本切分成一个一个的句子。完
成该功能的软件,称为语句切分器(Sentence Detector,也叫
Chunker)。接着,需要对句子进行分词,完成该功能的软件,称为
分词器(Tokenizer)。目前,句子切分和分词已经是一项成熟的技
术。
– 词性标注
– 词性标注 (Part-of-Speech Tagger,简称 POS Tagger)软件,分
析某种语言的文本,然后针对每个词(Word, 或者 Token)赋予 POS
标记,比如名词(Noun)、动词(Verb)、形容词(Adjective)等。
– 语法树
– Parser 首 先 对 句 子 的 文 本 进 行 分 词 , 然 后 进 行 POS 标 注 (POS
Tagging),根据 POS 标注结果以及句子成分信息,找出单词/短语
之间的依赖关系(Dependency),最后构建句子的语法解析树,结果
以有向图、或者树的形式展示。
向量空间模型:主要的文档表示模型,是 Gerard Salton 和 McGill 于 1969 年提
出的向量空间模型(Vector Space Model, VSM)。在向量空间模型里,文档表示
为一个向量,向量的分量为特征项的权重,(w1, w2, …, wn),其中 wi 为第 i 个
特征项的权重。一般选取单词作为特征项,即一个单词是一个词项。
相对词频的主要计算方法:TF-IDF/词频-逆文档频率
如果某个词或短语在一篇文章中出现的频率高(即 TF 高),并且在其他文章中很
少出现(即 IDF 高),则认为此词或者短语具有很好的类别区分能力,适合用来
分类。
TF 刻画了词语 t 对某篇文档的重要性,IDF 刻画了词语 t 对整个文档集的重要性。
该文档的词项的总数
– TF 的计算方法为,
– IDF 的计算方法为,
– TF= 该词项(Term)在该文档出现的次数
– IDF=log 文档库中的文档总数
包含该词项的文档数+1 ,分析 IDF 的必要性(课本上)。
– TF-IDF 公式把 TF 和 IDF 乘起来,计算词项的权重,即 TF-IDF = TF
* IDF。
倒排索引:
得到正向索引的结构如下:
“文档 1”的 ID > 单词 1:出现次数,出现位置列表;单词 2:
出现次数,出现位置列表;…………。
“文档 2”的 ID > 此文档出现的关键词列表。
当用户在主页上搜索关键词“华为手机”时,假设只存在正向索引(forward
index),那么就需要扫描索引库中的所有文档,找出所有包含关键词“华为手机”
的文档,再根据打分模型进行打分,排出名次后呈现给用户。因为互联网上收录
在搜索引擎中的文档的数目是个天文数字,这样的索引结构根本无法满足实时返
回排名结果的要求。
所以,搜索引擎会将正向索引重新构建为倒排索引,即把文件
ID 对应到关键词的映射转换为关键词到文件 ID 的映射,每个关键词都对应着一
系列的文件,这些文件中都出现这个关键词。
得到倒排索引的结构如下:
“关键词 1”:“文档 1”的 ID,“文档 2”的 ID,…………。
“关键词 2”:带有此关键词的文档 ID 列表。
查询与文档的相似度与结果排序
首先,文档可以表示成一个权重分量(也就是很多的词项)构成的向量。而查询(关
键字查询, Key Word Search),表示为若干个词项组成的查询文档,于是也可以
表示成一个权重分量构成的向量,只不过很多的分量为 0。
余弦相似度通过向量夹角余弦,表示两个向量的相似度,夹角越小,相似度越高。
文本特征提取
输入单词、id,输出词袋向量
理解词袋的表示方式,优缺点
词袋(Bag-of-words)模型
非常易于理解和实施
为定制特定的文本数据提供了很大的灵活性。
它在语言建模和文档分类等预测问题上取得了很大的成功。
缺点:
•词汇:词汇需要仔细的设计,特别是为了管理文档的大小,这会影响文档表示
的稀疏性。
•稀疏性:由于计算的原因(空间和时间复杂性)以及信息的原因,稀疏表示更
难模拟,因为模型在如此庞大的代表空间中利用这么少的信息面临着巨大挑战。
•含义:丢弃词序忽略了上下文,进而又影响在文档中的词语的意义(语义)。
上下文和意义可以提供很多模型,如果模型可以区分相同的单词不同的排列
(“这是有趣的”vs“这是有趣的”),同义词(“旧自行车”vs“二手自行
车”)。
Jane wants to go to Shenzhen.
Bob
wants to go to Shanghai.
将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立
的。例如上面 2 个例句,就可以构成一个词袋,袋子里包括 Jane、wants、to、
go、Shenzhen、Bob、Shanghai。假设建立一个数组(或词典)用于映射匹配
1 [Jane, wants, to, go, Shenzhen, Bob, Shanghai]
那么上面两个例句就可以用以下两个向量表示,对应的下标与映射数组的下标
相匹配,其值为该词语出现的次数
1 [1,1,2,1,1,0,0]
2 [0,1,2,1,0,1,1]
输入句子,给出 N-Gram 表示
N-gram 模型是一种语言模型(Language Model,LM),语言模型是一个基于概率
的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即
这些单词的联合概率(joint probability)。
N-gram 本身也指一个由 NNN 个单词组成的集合,各单词具有先后顺序,且不要
求 单 词 之 间 互 不 相 同 。 常 用 的 有 Bi-gram (N=2N=2N=2) 和 Tri-gram
(N=3N=3N=3),一般已经够用了。例如在上面这句话里,我可以分解的 Bi-gram 和
Tri-gram :
Bi-gram : {I, love}, {love, deep}, {love, deep}, {deep, learning}
Tri-gram : {I, love, deep}, {love, deep, learning}
第一部分的小概念(理论上不用背)
4. 语法:语言中允许的结构:句子,
5. 短语,词缀(-ing,-ed,-ment 等)。
6. 语义:语言中文本的含义。
7. 词性(POS):单词的类别(名词,动词,介词等)。
8. 词袋(BoW):使用忽略顺序的单词计数(或二进制)向量的特征。
9. N-gram:对于固定的 N(2-5 是常见的),n-gram 是文本中连续的单词序
列。
10.聚类算法
e. 聚类分析应用:
i. 市场销售
ii. 土地使用
iii. 保险
iv. 城市规划
b. 描述 K-Mean 算法
11.如何度量对象间距离?
f. 欧几里得
g. 曼哈顿