大數(shù)據(jù)：70多個網(wǎng)站讓你免費獲取大數(shù)據(jù)存儲庫

2016-01-01 00:00:00

來源：網(wǎng)絡(luò)

點擊：3045

A⁺ A^-

關(guān)鍵詞：大數(shù)據(jù),物聯(lián)網(wǎng),存儲庫

　　你是否需要大量的數(shù)據(jù)來檢驗?zāi)愕腁PP性能？最簡單的方法是從網(wǎng)上免費數(shù)據(jù)存儲庫下載數(shù)據(jù)樣本。但這種方法最大的缺點是數(shù)據(jù)很少有獨特的內(nèi)容并且不一定能達到預(yù)期的結(jié)果。以下是70多家可以獲得免費大數(shù)據(jù)存儲庫的網(wǎng)站。

　　Wikipedia：Database ：向感興趣的用戶提供所有可用的內(nèi)容的免費副本。可以得到多種語言的數(shù)據(jù)。內(nèi)容連同圖片可以下載。

　　Common crawl 建立并維護一個所有人都可以訪問的開放的網(wǎng)絡(luò)。這個數(shù)據(jù)保存在亞馬遜s3bucket中，請求者可能花費一些錢來訪問它。

　　Common crawl ：建立并維護一個開放的網(wǎng)絡(luò)，向所有人開放。

　　EDRM File Formats Data Set：由381個文件夾200種文件格式組成。

　　Apache Mahout TLP項目創(chuàng)建一個可擴展的機器學(xué)習(xí)算法。Mahout有許多免費的和付費的語料庫語料。

　　EDRM Enron Email Data Set v2由安然公司郵件信息和附件組成，存在兩組可下載的壓縮文件中：XML和PST。

　　ClueWeb09用來支持信息檢索和相關(guān)人類語言技術(shù)研究的資料庫。它包含了從2009年1月到2月間收集的大約10億個網(wǎng)頁，包含10種語言。資料庫被若干TREC會議的追蹤檢測使用。

　　DMOZ –最大的、最全面的人工編輯的開放式網(wǎng)站目錄。它收集了不同類型的網(wǎng)站鏈接。Dmoz是互聯(lián)網(wǎng)搜索引擎的一個主要來源。

　　theinfo.org –這是一個大數(shù)據(jù)集網(wǎng)站，在這里學(xué)者、設(shè)計師、藝術(shù)家等可以交流技巧和竅門，一起開發(fā)和共享工具，并開始整合他們獨有的項目。

　　Project Gutenberg 提供超過36000免費電子書的下載，可以下載到個人電腦、Kindle， Android， iOS or 或其他便攜式設(shè)備。

　　Million song data set：與tracks 和藝術(shù)家有關(guān)的數(shù)據(jù)

　　AWS (Amazon Web Services) Public Data Sets：提供了可以無縫融入AWS（亞馬遜網(wǎng)絡(luò)服務(wù)）云應(yīng)用的公共數(shù)據(jù)集的集中存儲庫。

　　BigML big list of public data sources.

　　Bioassay data：研究文章“生物測定數(shù)據(jù)的虛擬篩選”，由Amanda Schierz編寫，有21個生物測定數(shù)據(jù)集（活性/非生理活性成分），可以下載。

　　Bitly 1.usa.gov data：匿名點擊政府鏈接

　　Canada Open Data：有許多政府和地理空間的數(shù)據(jù)集的試點項目

　　Canada Open Data：許多政府和地理空間數(shù)據(jù)集的試點項目。

　　Causality Workbench：數(shù)據(jù)存儲庫

　　Corral Big Data repository：在德克薩斯高級計算中心，提供以數(shù)據(jù)為中心的技術(shù)。

　　Data Source Handbook：公開數(shù)據(jù)指南

　　Datacatalogs.org：來自美國、歐盟、加拿大、CKAN以及其他的公開政府?dāng)?shù)據(jù)

　　Data.gov.uk：英國的公共可用數(shù)據(jù)（London datastore也是）

　　Data.gov/Education：對于教育數(shù)據(jù)資源的主要指南，包括高價值的數(shù)據(jù)集、數(shù)據(jù)可視化、課堂資源、創(chuàng)建自公開數(shù)據(jù)的應(yīng)用程序以及其他。

　　DataMarket：可視化的世界經(jīng)濟、社會、自然和工業(yè)，擁有來自聯(lián)合國，世界銀行，歐盟統(tǒng)計局和其他重要數(shù)據(jù)提供者的一億時間序列。

　　Datamob：可以很好利用的公開數(shù)據(jù)

　　DataSF.org：可向City & County of San Francisco， CA.購買的數(shù)據(jù)集信息交流中心

　　DataFerrett：一個用來訪問和使用The Data Web的數(shù)據(jù)挖掘工具，許多網(wǎng)上美國政務(wù)數(shù)據(jù)集的集合。

　　EconData：大量經(jīng)濟學(xué)的時間序列，由許多美國政府機構(gòu)編制。

　　Enron Email Dataset：來自大約150個用戶的數(shù)據(jù)，這些用戶大多數(shù)是安然公司高級管理人員

　　Europeana Data：包含2000萬文字，圖片，視頻開放的元數(shù)據(jù)，以及由歐洲數(shù)位圖書館收集的聲音，對于歐洲文化遺產(chǎn)內(nèi)容值得信賴的、全面的資源。

　　Europeana Data：

　　FEDSTATS：一個美國統(tǒng)計資料的綜合資源以及更多

　　FIMI repository for frequent itemset mining：工具和數(shù)據(jù)集

　　Financial Data Finder at OSU：大型財務(wù)數(shù)據(jù)集目錄

　　GDELT：關(guān)于事件、位置和音調(diào)的全球數(shù)據(jù)，被英國衛(wèi)報形容為“生命、宇宙和一切的大數(shù)據(jù)歷史”

　　GEO (GEO Gene Expression Omnibus)：一個支持MIAME兼容數(shù)據(jù)提交的基因表達/分子豐度信息庫，一個精心策劃的網(wǎng)上資源，用于基因表達數(shù)據(jù)的瀏覽，查詢和檢索。

　　GeoDa Center：地理和空間數(shù)據(jù)

　　Google ngrams datasets：來自數(shù)Google掃描的百萬書籍文本

　　Grain Market Research：財務(wù)數(shù)據(jù)，包括股票、期貨等

　　Hilary Mason research-quality Big Data sets收集許多文本和圖片數(shù)據(jù)集

　　HitCompanies Datasets：HitCompanies隨機取樣的1萬個英國公司全面的數(shù)據(jù)，采用人工智能/機器學(xué)習(xí)進行自動更新。

　　ICWSM-2009 dataset：包含2008年8月1日到10月1日之間的4400萬個博文

　　Infochimps：一個數(shù)據(jù)開放的目錄和集合，允許分享、出售和下載關(guān)于任何內(nèi)容的數(shù)據(jù)。

　　Investor Links：包含財物數(shù)據(jù)

　　KDD Cup center：數(shù)據(jù)、工作表和結(jié)果

　　Kevin Chai list of datasets：文本、SNA和其他領(lǐng)域

　　KONECT：科布倫茨網(wǎng)絡(luò)收集，擁有大量各種類型的網(wǎng)絡(luò)數(shù)據(jù)集，以便在網(wǎng)絡(luò)挖掘領(lǐng)域進行研究。

　　Linking Open Data 工程，免費向所有人提供數(shù)據(jù)

　　MIT Cancer Genomics gene expression datasets and publications：來自麻省理工Whitehead Center用于基因組研究

　　ML Data：歐盟Pascal2網(wǎng)絡(luò)數(shù)據(jù)儲存庫

　　NASDAQ Data Store：提供市場數(shù)據(jù)

　　National Government Statistical Web Sites：來自大約70個網(wǎng)站的數(shù)據(jù)、報告、統(tǒng)計年鑒、新聞和其他，包括非洲、歐洲、亞洲和拉丁美洲的國家。

　　National Space Science Data Center (NSSDC)：美國國家航空航天局的數(shù)據(jù)集，包含行星探索、空間和太陽物理學(xué)、生命科學(xué)、天體物理學(xué)以及其他方面。

　　Open Data Census：評估世界各地的開放數(shù)據(jù)的狀態(tài)。

　　OpenData from Socrata：允許訪問超過10000個數(shù)據(jù)集，包括商業(yè)、教育、政府和娛樂

　　Open Source Sports：大量運動數(shù)據(jù)庫，包括棒球、足球、籃球和曲棍球

　　Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools：基因組有關(guān)的出版物數(shù)據(jù)庫

　　Quandl， a collaboratively curated portal to millions of financial and economic time-series datasets.

　　qunb：一個用來發(fā)現(xiàn)和可視化的數(shù)據(jù)資料的平臺

　　Robert Schiller data：住房建筑、股票市場和更多的來自于他的書 Irrational Exuberance的數(shù)據(jù)

　　SMD： Stanford Microarray Database，存儲來自微陣列實驗的原始的和標(biāo)準的數(shù)據(jù)

　　Jerry Smith dataset collection：財經(jīng)、政府、機器學(xué)習(xí)、科學(xué)和其他數(shù)據(jù)

　　SourceForge.net Research Data：包含大約10萬個項目和超過100萬注冊用戶的活動的歷史和現(xiàn)狀的統(tǒng)計數(shù)據(jù)的項目管理網(wǎng)站。

　　StatLib，卡內(nèi)基梅隆大學(xué)數(shù)據(jù)檔案

　　STATOO Datasets part 1和 STATOO Datasets part 2

　　Time Series Data Library

　　Visual Analytics Benchmark Repository.

　　UCI KDD Database Repository ：適用于機器學(xué)習(xí)和知識發(fā)現(xiàn)研究的大數(shù)據(jù)集

　　UCI Machine Learning Repository.

　　UCR Time Series Data Archive：提供數(shù)據(jù)集、論文、鏈接和代碼

　　United States Census Bureau.

　　Wikiposit：一個（虛擬的）融合了來自許多不同網(wǎng)站的數(shù)據(jù)（大多數(shù)是金融的），允許用戶合并來自不同來源的數(shù)據(jù)

　　Wolfram Alpha disease and patient level dat.

　　Yahoo Sandbox datasets：語言、圖表、評級、廣告與營銷、競賽

　　Yelp Academic Dataset：30家大學(xué)的250個最接近商業(yè)的所有數(shù)據(jù)和評論，為學(xué)生和學(xué)者來探討和研究

(審核編輯: 小丸子1)

聲明：除特別說明之外，新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認為內(nèi)容侵權(quán)，請聯(lián)系我們刪除。

分享

在线观看免费黄色网址,一区二区视频,亚洲国产综合网,欧美VA免费高清在线观看

大數(shù)據(jù)：70多個網(wǎng)站讓你免費獲取大數(shù)據(jù)存儲庫

點擊排行

專題