女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在訓練過程中正確地把數據輸入給模型

XILINX開發者社區 ? 來源:XILINX開發者社區 ? 作者:XILINX開發者社區 ? 2021-07-01 10:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器學習中一個常見問題是判定與數據交互的最佳方式。

在本文中,我們將提供一種高效方法,用于完成數據的交互、組織以及最終變換(預處理)。隨后,我們將講解如何在訓練過程中正確地把數據輸入給模型。

PyTorch 框架將幫助我們實現此目標,我們還將從頭開始編寫幾個類。PyTorch 可提供更完整的原生類,但創建我們自己的類可幫助我們加速學習。

第 1 部分:原始數據和數據集

首先我們把尚未經過組織的所有樣本稱為“原始數據”。

把“數據集”定義為現成可用的數據,即含標簽以及基本函數接口(以便于使用原始數據信息)的原始數據。

此處我們使用一種簡單的原始數據形式:1 個包含圖像和標簽的文件夾。

但此方法可擴展至任意性質的樣本(可以是圖片、錄音、視頻等)以及包含標簽的文件。

標簽文件中的每一行都用于描述 1 個樣本和相關標簽,格式如下:

file_sample_1 label1

file_sample_2 label2

file_sample_3 label3

(。。。)

當能夠完成一些基本信息查詢(已有樣本數量、返回特定編號的樣本、預處理每個樣本等)時,說明我們已從原始數據集創建了 1 個數據集。

此方法基于面向對象編程以及創建用于數據處理的 “類”。

對于一組簡單的圖像和標簽而言,此方法可能看上去略顯殺雞用牛刀(實際上,此用例通常是通過創建分別用于訓練、驗證和測試的獨立文件夾來進行處理的)。但如果要選擇標準交互方法,則此方法將來可復用于多種不同用例,以節省時間。

Python 中處理數據

在 Python 中所有一切都是對象:整數、列表、字典都是如此。

構建含標準屬性和方法的“數據集”對象的原因多種多樣。我認為,代碼的精致要求就足以合理化這一選擇,但我理解這是品味的問題。可移植性、速度和代碼模塊化可能是最重要的原因。

在許多示例以及編碼書籍中,我發現了面向對象的編碼(尤以類為甚)的其它有趣的功能和優勢,總結如下:

? 類可提供繼承

? 繼承可提供復用

? 繼承可提供數據類型擴展

? 繼承支持多態現象

? 繼承是面向對象的編碼的特有功能

■輸入 [1]:

import torch

from torchvision import transforms

to_tensor = transforms.ToTensor()

from collections import namedtuple

import functools

import copy

import csv

from PIL import Image

from matplotlib import pyplot as plt

import numpy as np

import os

import datetime

import torch.optim as optim

在我們的示例中,所有原始樣本都存儲在文件夾中。此文件夾的地址在 raw_data_path 變量中聲明。

■輸入 [2]:

raw_data_path = ‘。/raw_data/data_images’

構建模塊

數據集接口需要一些函數和類。數據集本身就是一個對象,因此我們將創建 MyDataset 類來包含所有重要函數和變量。

首先,我們需要讀取標簽文件,然后可對樣本在其原始格式(此處為 PIL 圖像)以及最終的張量格式應用某些變換。

我們需要使用以下函數來讀取 1 次標簽文件,然后創建包含所有樣本名稱和標簽的元組。

內存中緩存可提升性能,但如果標簽文件發生更改,請務必更新緩存內容。

■ 輸入 [113]:

DataInfoTuple = namedtuple(‘Sample’,‘SampleName, SampleLabel’)

def myFunc(e):

return e.SampleLabel

# in memory caching decorator: ref https://dbader.org/blog/python-memoization

@functools.lru_cache(1)

def getSampleInfoList(raw_data_path):

sample_list = []

with open(str(raw_data_path) + ‘/labels.txt’, mode = ‘r’) as f:

reader = csv.reader(f, delimiter = ‘ ’)

for i, row in enumerate(reader):

imgname = row[0]

label = int(row[1])

sample_list.append(DataInfoTuple(imgname, label))

sample_list.sort(reverse=False, key=myFunc)

# print(“DataInfoTouple: samples list length = {}”.format(len(sample_list)))

return sample_list

如需直接變換 PIL 圖像,那么以下類很實用。

該類僅含 1 種方法:resize。resize 方法能夠改變 PIL 圖像的原始大小,并對其進行重新采樣。如需其它預處理(翻轉、剪切、旋轉等),需在此類種添加方法。

當 PIL 圖像完成預處理后,即可將其轉換為張量。此外還可對張量執行進一步的處理步驟。

在以下示例種,可以看到這兩種變換:

■ 輸入 [4]:

class PilTransform():

“”“generic transformation of a pil image”“”

def resize(self, img, **kwargs):

img = img.resize(( kwargs.get(‘width’), kwargs.get(‘height’)), resample=Image.NEAREST)

return img

# creation of the object pil_transform, having all powers inherited by the class PilTransform

pil_transform = PilTransform()

以下是類 PilTransform 的實操示例:

■ 輸入 [5]:

path = raw_data_path + “/img_00000600.JPEG”

print(path)

im1 = Image.open(path, mode=‘r’)

plt.imshow(im1)

。/raw_data/data_images/img_00000600.JPEG

■ 輸出 [5]:

《matplotlib.image.AxesImage at 0x121046f5588》

■ 輸入 [6]:

im2 = pil_transform.resize(im1, width=128, height=128)

# im2.show()

plt.imshow(im2)

■ 輸出 [6]:

《matplotlib.image.AxesImage at 0x12104b36358》

最后,我們定義一個類,用于實現與原始數據的交互。

類 MyDataset 主要提供了 2 個方法:

__len__ 可提供原始樣本的數量。

__getitem__ 可使對象變為可迭代類型,并按張量格式返回請求的樣本(已完成預處理)。

__getitem__ 步驟:

1) 打開來自文件的樣本。

2) 按樣本的原始格式對其進行預處理。

3) 將樣本變換為張量。

4) 以張量格式對樣本進行預處理。

此處添加的預處理僅作為示例。

此類可對張量進行歸一化(求平均值和標準差),這有助于加速訓練過程。

請注意,PIL 圖像由范圍 0-255 內的整數值組成,而張量則為范圍 0-1 內的浮點數矩陣。

該類會返回包含兩個元素的列表:在位置 [0] 返回張量,在位置 [1] 返回包含 SampleName 和 SampleLabel 的命名元組。

■ 輸入 [109]:

class MyDataset():

“”“Interface class to raw data, providing the total number of samples in the dataset and a preprocessed item”“”

def __init__(self,

isValSet_bool = None,

raw_data_path = ‘。/’,

SampleInfoList = DataInfoTuple,norm = False,

resize = False,

newsize = (32, 32)

):

self.raw_data_path = raw_data_path

self.SampleInfoList = copy.copy(getSampleInfoList(self.raw_data_path))

self.isValSet_bool = isValSet_bool

self.norm = norm

self.resize = resize

self.newsize = newsize

def __str__(self):

return ‘Path of raw data is ’ + self.raw_data_path + ‘/’ + ‘《raw samples》’

def __len__(self):

return len(self.SampleInfoList)

def __getitem__(self, ndx):

SampleInfoList_tup = self.SampleInfoList[ndx]

filepath = self.raw_data_path + ‘/’ + str(SampleInfoList_tup.SampleName)

if os.path.exists(filepath):

img = Image.open(filepath)

# PIL image preprocess (examples)

#resize

if self.resize:

width, height = img.size

if (width 》= height) & (self.newsize[0] 》= self.newsize[1]):

img = pil_transform.resize(img, width=self.newsize[0], height=self.newsize[1])

elif (width 》= height) & (self.newsize[0] 《 self.newsize[1]):

img = pil_transform.resize(img, width=self.newsize[1], height=self.newsize[0])

elif (width 《 height) & (self.newsize[0] 《= self.newsize[1]):

img = pil_transform.resize(img, width=self.newsize[0], height=self.newsize[1])

elif (width 《 height) & (self.newsize[0] 》 self.newsize[1]):

img = pil_transform.resize(img, width=self.newsize[1], height=self.newsize[0])

else:

print(“ERROR”)

# from pil image to tensor

img_t = to_tensor(img)

# tensor preprocess (examples)

#rotation

ratio = img_t.shape[1]/img_t.shape[2]

if ratio 》 1:

img_t = torch.rot90(img_t, 1, [1, 2])

#normalization requires the knowledge of all tensors

if self.norm:

img_t = normalize(img_t)

#return img_t, SampleInfoList_tup

return img_t, SampleInfoList_tup.SampleLabel

else:

print(‘[WARNING] file {} does not exist’.format(str(SampleInfoList_tup.SampleName)))

return None

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8500

    瀏覽量

    134503
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25404
  • PIL
    PIL
    +關注

    關注

    0

    文章

    19

    瀏覽量

    8819
  • pytorch
    +關注

    關注

    2

    文章

    809

    瀏覽量

    13916

原文標題:開發者分享 | 利用 Python 和 PyTorch 處理面向對象的數據集:1. 原始數據和數據集

文章出處:【微信號:gh_2d1c7e2d540e,微信公眾號:XILINX開發者社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何正確地進行信號放大

    晶體管和運放都可以放大信號,但到底什么是信號放大,以及如何正確地進行信號放大。在學習電子設計的過程中,我從未在微控制器和邏輯門的世界里遇到過什么困難。但模擬電路是一個不同的故事;有好一陣子,我只能
    的頭像 發表于 04-15 11:52 ?488次閱讀
    如何<b class='flag-5'>正確地</b>進行信號放大

    請問如何在imx8mplus上部署和運行YOLOv5訓練模型

    。我在 yo tflite 中轉換模型并嘗試在 tensorflow 腳本上運行模型,但它不起作用。 如何在 imx8mplus 上運行 YOLOv5 模型? 在 imx8mplus
    發表于 03-25 07:23

    數據標注服務—奠定大模型訓練數據基石

    數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練中,
    的頭像 發表于 03-21 10:30 ?663次閱讀

    標貝數據標注服務:奠定大模型訓練數據基石

    數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練中,
    的頭像 發表于 03-21 10:27 ?553次閱讀
    標貝<b class='flag-5'>數據</b>標注服務:奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>的<b class='flag-5'>數據</b>基石

    是否可以輸入隨機數據集來生成INT8訓練后量化模型

    無法確定是否可以輸入隨機數據集來生成 INT8 訓練后量化模型
    發表于 03-06 06:45

    模型訓練:開源數據與算法的機遇與挑戰分析

    進行多方位的總結和梳理。 在第二章《TOP 101-2024 大模型觀點》中,蘇州盛派網絡科技有限公司創始人兼首席架構師蘇震巍分析了大模型訓練過程中開源數據集和算法的重要性和影響,分析
    的頭像 發表于 02-20 10:40 ?586次閱讀
    大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>:開源<b class='flag-5'>數據</b>與算法的機遇與挑戰分析

    如何訓練BP神經網絡模型

    BP(Back Propagation)神經網絡是一種經典的人工神經網絡模型,其訓練過程主要分為兩個階段:前向傳播和反向傳播。以下是訓練BP神經網絡模型的步驟: 一、前向傳播 前向傳播
    的頭像 發表于 02-12 15:10 ?884次閱讀

    騰訊公布大語言模型訓練新專利

    大語言模型訓練過程中引入第一摘要文本和第二摘要文本,為模型提供了更為豐富的學習信息。這兩個摘要文本在信息量上存在差異,且第一摘要文本中既包含正確語句也包含錯誤語句。這一設計使得
    的頭像 發表于 02-10 09:37 ?396次閱讀

    GPU是如何訓練AI大模型

    在AI模型訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何訓練AI大模型的。
    的頭像 發表于 12-19 17:54 ?714次閱讀

    如何訓練ai大模型

    源 :從可靠的來源獲取數據,如公開數據集、內部數據庫或第三方數據提供商。 2. 數據清洗 去除重復數據
    的頭像 發表于 10-17 18:17 ?2574次閱讀

    何在應用中正確設置THVD1505和SN65HVD888

    電子發燒友網站提供《如何在應用中正確設置THVD1505和SN65HVD888.pdf》資料免費下載
    發表于 09-18 10:25 ?0次下載
    如<b class='flag-5'>何在</b>應用<b class='flag-5'>中正確</b>設置THVD1505和SN65HVD888

    FP8模型訓練中Debug優化思路

    目前,市場上許多公司都積極開展基于 FP8 的大模型訓練,以提高計算效率和性能。在此,我們整理并總結了客戶及 NVIDIA 技術團隊在 FP8 模型訓練過程中的 debug 思路和方法
    的頭像 發表于 09-06 14:36 ?893次閱讀
    FP8<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>中Debug優化思路

    AI訓練的基本步驟

    AI(人工智能)訓練是一個復雜且系統的過程,它涵蓋了從數據收集到模型部署的多個關鍵步驟。以下是對AI訓練過程的詳細闡述,包括每個步驟的具體內
    的頭像 發表于 07-17 16:57 ?5187次閱讀

    pytorch如何訓練自己的數據

    本文將詳細介紹如何使用PyTorch框架來訓練自己的數據。我們將從數據準備、模型構建、訓練過程、評估和測試等方面進行講解。 環境搭建 首先,
    的頭像 發表于 07-11 10:04 ?1010次閱讀

    BP神經網絡的基本結構和訓練過程

    網絡結構,通過誤差反向傳播算法(Error Backpropagation Algorithm)來訓練網絡,實現對復雜問題的學習和解決。以下將詳細闡述BP神經網絡的工作方式,涵蓋其基本原理、訓練過程、應用實例以及優缺點等多個方面。
    的頭像 發表于 07-10 15:07 ?7914次閱讀
    BP神經網絡的基本結構和<b class='flag-5'>訓練過程</b>