,每个使用者对应一个超级电脑用于解压缩,然后索引需要用到的内容?
70亿个使用者呢?是不是需要建造70亿个超级电脑硬件啊?
特别是有很多历史变迁问题,比如10年前,某个学科专有名词的学术名是A,10年后,该学科专有名词的学术名是B,然后每隔一段时间,学术名都有改变,突然一下去找100年前,这个学术名,那就麻烦了。
学科用大数据的应用,如果只考虑到当代使用,很容易就解决,可能最多需要3个超级电脑就足以应对,可是如果面对的是时间跨度可能需要百万年的古生物研究呢?地球考古学研究呢?历史新闻研究呢?会面对什么问题?
还有一种问题,那就是语言是一种主观存在,包含的含义,在每一代可能都有偏差,比如流氓一词,可能某些词义没有被编写进入字典中,没有编入辞典中,就被后来人当做通假字论了,还不排除有的写书的人,本身喜欢另辟蹊径,自己创造一些词语组合,也不排除创作者词不达意。
这也就导致,搜索可能需要完全展开整个数据库的所有内容都变成最终的未压缩版本,这是刚性需求,特别是使用者使用模糊搜索兼或用未来的术语来搜索历史上的术语。
然而随着数据采集越来越精密,很多全息数据,都可以大到没边,把无限大+无限大+无限大的数据,都聚集到数据库中,能用很小的存储硬件来存储可以解压缩成为无损数据来使用,然而解压缩时,硬件不足怎么办?航线航天器,在飞行过程中,百分之八十都被陨石击穿,而又没有足够的资源来修复,而又急需用历史数据来找到某个问题的参考答案?怎么弄?无参考答案的去创新方法来解决?
当参考答案没有变质,没有过期,那么参考答案就是宝贝,多多益善;当参考答案变质了,过期了,不适合当下和当前环境了,那么参考答案就是垃圾,还不如就地创新,还浪费了观看者的时间去了解并不适用的参考答案。
越是历史久远的文明,越容易累死在对历