重构 Palantir 数据模型

2018 年 12 月 27 日 待字闺中

Palantir又火了!


一个优秀的产品,往往是后面的伟大的思想和简单的规则。


有很多的公司号称对标Palantir,但只是学了皮毛,并没有学到精华,尤其是后面的理念,思维,逻辑,和方法论。


长期在关注和研究它,终于静下来,做点塌实的工作。根据它的产品和使用体验,整理了一套资料(需要的话,关注此公众号索取),并且尝试探索。


下面是根据它的产品和资料,加上本人的理解,用thrift(很喜欢protobuf和thrift),重构的一个简单的数据模型。大体上,除了很多的细节,大体框架够了。其实,这个模型后面蕴含了很多的产品思想。


struct DataSource {

  1: string type,

  2: string name,

}


struct DataSourceRecord {

  1: DataSource ds,

  2: string importKey,

  3: i32 startPos,

  4: i32 endPos,

  5: i32 sentenceNum, 

  6: i32 paragraphNum,

}


struct Property {

  1: string type,

  2: set<string> value,

  3: DataSourceRecord dsr,

}


struct Media {

  1: string title,

  2: string shortDescription,

  3: string data,

  4: string thumbNailData,

  5: DataSourceRecord dsr, 

}


struct Note {

  1: string title,

  2: string data,

  3: DataSourceRecord dsr,

}


struct Relationship {

  1: string childRef,

  2: string parentRef,

  3: string type,

  4: string role,

  5: DataSourceRecord dsr,

}


struct Object {

  1: title,

  2: set<Property> properties,

  3: set<Meida> medias,

  4: set<note> notes,

}


struct DocumentMetaData {

  1: string title,

  2: string source,

  3: string type,

  4: string encoding,

  5: string timstampe,

  6: map<string, string> docProperties,

  7: string sentenceBreak,

  8: string paragraphBreak,

}


struct Document {

  1: DocumentMetaData metaData,

  2: string content,

  3: set<Object> objects,

}


大体如此,细节,以后慢慢再聊。

登录查看更多
17

相关内容

thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。它结合了功能强大的软件堆栈和代码生成引擎,以构建在 C++, Java, Go,Python, PHP, Ruby, Erlang, Perl, Haskell, C#, Cocoa, JavaScript, Node.js, Smalltalk, and OCaml 这些编程语言间无缝结合的、高效的服务。
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
85+阅读 · 2020年5月11日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
223+阅读 · 2020年3月22日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
在 Google 工作六年半后,我还是选择离职了
开源中国
4+阅读 · 2018年10月21日
TensorFlow实例: 手写汉字识别
机器学习研究会
8+阅读 · 2017年11月10日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
VIP会员
相关资讯
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
在 Google 工作六年半后,我还是选择离职了
开源中国
4+阅读 · 2018年10月21日
TensorFlow实例: 手写汉字识别
机器学习研究会
8+阅读 · 2017年11月10日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员