除了資料之外,在結構化資料集中我們還可以找到以下元素。
行:這些是組織資料的基本群組。例如,如果我們有一個包含客戶資訊的資料集,則每一行都可以代表一個特定的客戶。或者,如果我們有一個記錄銷售額的資料集,則每一行都可以代表一個特定的交易。
簡而言之行是資料庫中的每個條目
列:這些是組成行的每個部分,我們可以在其中找到它們的特徵或資訊。繼續以客戶為例,每一列將包含有關客戶的信息,例如他們的姓名、年齡、購買歷史記錄…類似地,在銷售示例中,每一列將指示該交易的特徵,例如時間和日期。已經做了什麼以及花費了多少。簡而言之,列是每個條目的屬性。
值:是我們在每行和每列中找到的數據,可以採用不同的格式。
資料集類型
根據格式劃分的資料集類型
數字:它僅包含數字形式的數據,使用它您基本上可以進行定量和統計分析。這就是為什麼它特別用於科學、統計和金融領域。
文字:在這種情況下
資訊是單字和字元格式,主要用於訓練自然語言模型和開發機器翻譯工具。在這組數據中,我們可以找到研究、新聞、評論、社交網路上的出版物、文章、部落格、論壇…
它們是標準用戶最容易接觸到的,並且許多可以在公共線上儲存庫中找到。
視訊和圖像:顧名思義,它們包含視訊和圖像格式的數據,主要用於訓練負責解釋和分析圖像 2024 年更新的 WhatsApp 號碼列表 或視訊以及識別其中模式的電腦系統;簡而言之,就是所謂的電腦視覺模型。
根據結構劃分的資料集類型
表格(結構化資料集)
它們是最常見的,優點是直覺、易於理解,因此不需要高技術知識的使用者也可以使用。關係資料庫和電子表格是結構化資料集的範例。
另一方面,它們可以進行高效、快速的分析,也廣泛應用於行銷和金融等領域。
非結構化資料集
數據沒有組織,使得處理和分析變得更加困難。非結構化資料集的一個完美範例就是電子郵件中的電子郵件。
與結構化資料集一樣,在這種類型中,我們也可以根據其格式包含不同的資料集。
在哪裡可以找到資料集?
首先,您應該知道任何人都可以透過數位化儲存資料和資訊來建立資料集。然而,有些用戶決定 007 厘米 發布它們(自主地或因為這是他們工作的一部分)以便公眾可以訪問它們。
從這個意義上說
我們可以找到公共(免費)或私有資料集。
對於公共資料集,任何使用者都可以存取它們,
並且可以在Google資料搜尋或FiveThrityEight等特定平台上找到它們。第一個可能是公司資訊方面最大的線上資料集搜尋引擎。第二個包含大量有關政治、體育和全球調查的數據。兩者都很可靠,您可以在您的專案中免費使用它們。
就其本身而言
私人資料集通常由私人公司或組織購買,由於資料不公開,因此在儲存和處理資料時必須特別注意其隱私,因為它往往是網路攻擊的目標。
在私人資料集中,我們還發現了不屬於公共領域的極其敏感的政府數據,因此並非每個人都可以存取。