4
ফোকাস
1271
অনুসারী

মেশিন লার্নিং এবং ডেটা মাইনিং সম্পর্কিত সাধারণ শব্দাবলী

তৈরি: 2017-03-20 09:58:22, আপডেট করা হয়েছে:
comments   0
hits   2015

মেশিন লার্নিং এবং ডেটা মাইনিং সম্পর্কিত সাধারণ শব্দাবলী

  • স্যাম্পলিংঃ

    • Simple Random Sampling (সরল র্যান্ডম নমুনা গ্রহণ)
    • OfflineSampling (অফলাইনে নমুনা গ্রহণ)
    • অনলাইন স্যাম্পলিং (অনলাইন নমুনা গ্রহণ) ।
    • অনুপাত-ভিত্তিক নমুনা (Ratio-based Sampling)
    • Acceptance-RejectionSampling (অনুমোদন-প্রত্যাখ্যানের নমুনা গ্রহণ)
    • Importance Sampling (গুরুত্বপূর্ণ নমুনা গ্রহণ)
    • MCMC ((MarkovChain Monte Carlo মার্কভ মন্টে কার্লো স্যাম্পলিং অ্যালগরিদমঃ মেট্রোপলিস-হ্যাস্টিং এবং গিবস) ।
  • Clustering (ক্লাসারিং):

    • K-Means,
    • K-Mediods,
    • সেকেন্ডে কে-মিস,
    • FK-Means,
    • Canopy,
    • স্পেকট্রাল-কেমেন্স (Spectral-KMeans) নামের একটি ওয়েবসাইটের মাধ্যমে এই তথ্য প্রকাশ করা হয়েছে।
    • GMM-EM (মিশ্র Gaussian মডেল - আশা করা যায় যে সর্বাধিকীকরণ অ্যালগরিদম সমাধান করবে)
    • K-Pototypes, CLARANS (বিন্যাস ভিত্তিক)
    • বিআইআরসিএইচ (BIRCH)
    • CURE (শ্রেণীভিত্তিক)
    • DBSCAN: ঘনত্বের ভিত্তিতে
    • CLIQUE ((ঘনত্ব ভিত্তিক এবং গ্রিড ভিত্তিক)
  • Classification&Regression: (শ্রেণিবদ্ধকরণ ও পুনরাবৃত্তি):

    • লিনিয়ার রিগ্রেশন (এলআর)
    • লজিস্টিক রিগ্রেশন (Logistic Regression) নামের একটি অ্যাপ্লিকেশন চালু হয়েছে।
    • SR (Softmax Regression) একটি ক্লাসিক লজিক্যাল রিগ্রেশন।
    • GLM (Generalized Linear Model) নামের একটি বৈশ্বিক লিনিয়ার মডেল।
    • RR (Ridge Regression Regression/L2 ধ্রুবক সর্বনিম্ন দ্বিগুণ রিটার্ন),
    • LASSO ((Least Absolute Shrinkage andSelectionator Operator L1 সঠিক সর্বনিম্ন দ্বিগুণ প্রত্যাবর্তন),
    • আরএফ (র্যান্ডম ফরেস্ট)
    • DT (ডিসিশন ট্রি)
    • এই গ্র্যাডিয়েন্ট বুস্টিং ডিসিশন ট্রি (GBDT) -এর মাধ্যমে, আমরা আমাদের সিদ্ধান্তের গাছকে প্রগতিশীল করে তুলতে পারি।
    • CART (Classification And Regression Tree) নামের একটি ওয়েব সাইট।
    • এদিকে, বাংলাদেশের গণমাধ্যমগুলোতে দেখা যাচ্ছে যে, এই ঘটনার সঙ্গে জড়িত ব্যক্তিরা হত্যার শিকার হয়েছেন।
    • SVM(Support VectorMachine),
    • KF ((KernelFunction কার্নেল ফাংশন PolynomialKernel Function বহুপদী কার্নেল ফাংশন,
    • Guassian KernelFunction গুয়াসিয়ান কার্নেল ফাংশন / রেডিয়াল বেসিস ফাংশন RBF রেডিয়াল বেসিস ফাংশন,
    • String KernelFunction স্ট্রিং কার্নেল ফাংশন)
    • NB ((Naive Bayes),BN ((Bayesian Network/Bayesian Belief Network/ Belief Network বেয়েসিয়ান নেটওয়ার্ক/ বেয়েসিয়ান বিশ্বাস নেটওয়ার্ক/ বিশ্বাস নেটওয়ার্ক),
    • LDA ((Linear Discriminant Analysis/FisherLinear Discriminant লিনিয়ার ডিসক্রিমিন্যান্ট অ্যানালাইসিস/ফিশার লিনিয়ার ডিসক্রিমিন্যান্ট অ্যানালাইসিস)
    • EL ((Ensemble Learning) হল একটি সমন্বিত শিক্ষা ব্যবস্থা যার মধ্যে Boosting, Bagging, Stacking,
    • এডাবুস্ট (Adaptive Boosting) নামের একটি ওয়েবসাইটের মাধ্যমে এই তথ্য প্রকাশ করা হয়েছে।
    • MEM ((Maximum Entropy Model বৃহত্তম কক্ষ মডেল)
  • Effectiveness Evaluation (কার্যকারিতা মূল্যায়ন):

    • Confusion Matrix (বিভ্রান্তি ম্যাট্রিক্স)
    • Precision (নির্ভুলতা), Recall (স্মরণ হার),
    • Accuracy (নির্ভুলতা), F-score (এফ স্কোর),
    • ROC Curve), AUC (AUC এলাকা),
    • LiftCurve (লিফ্ট কার্ভ), KS Curve (কেএস কার্ভ) ।
  • পিজিএম (সম্ভাব্য গ্রাফিকাল মডেল):

    • BN ((Bayesian Network/Bayesian Belief Network/ BeliefNetwork) বেয়েসিয়ান নেটওয়ার্ক/বেয়েসিয়ান বিশ্বাস নেটওয়ার্ক/বিশ্বাস নেটওয়ার্ক)
    • মার্কভ চেইন (Markov Chain) নামের একটি ওয়েবসাইটের মালিক।
    • এইচএমএম (HiddenMarkov Model) -এর ব্যবহারের ফলে, এইচএমএম (HMM) -এর ব্যবহারের ফলে, এইচএমএম (HMM) -এর ব্যবহারের ফলে, এইচএমএম (HMM) -এর ব্যবহারের ফলে।
    • MEMM (ম্যাক্সিমাম এন্ট্রোপি মার্কভ মডেল)
    • সিআরএফ (শর্তসাপেক্ষ র্যান্ডম ফিল্ড)
    • MRF (মার্কভ র্যান্ডম ফিল্ড)
  • নিউরাল নেটওয়ার্ক:

    • এএনএন (আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক) এর সাথে যুক্ত হওয়া,
    • BP ((Error BackPropagation ত্রুটি বিপরীতভাবে ছড়িয়ে পড়ে)
  • DeepLearning

    • অটো-এনকোডার (অটো এনকোডার)
    • SAE (Stacked Auto-encoders) -এর জন্য, এটি একটি স্ট্যাকড অটো-এনকোডার।
    • Sparse Auto-encoders একটি স্বয়ংক্রিয় এনকোডার,
    • Denoising Auto-encoders: স্বয়ংক্রিয় এনকোডার থেকে শব্দ সরানো
    • Contractive Auto-encoders (কন্ট্র্যাকটিভ অটো-এনকোডার)
    • আরবিএম (Restricted Boltzmann Machine) নামের এই মেশিনটি তৈরি করা হয়েছে।
    • ডিবিএন (Deep Belief Network) নামের এই নেটওয়ার্কটি বিশ্বের বিভিন্ন দেশের নাগরিকদের কাছে তাদের বিশ্বাসের কথা তুলে ধরেছে।
    • সিএনএন (CNN) -এর প্রতিবেদনে বলা হয়েছে, “বিপ্লবী নিউরাল নেটওয়ার্ক” (Convolutional Neural Network) একটি নতুন প্রযুক্তির উদ্ভাবন করেছে।
    • Word2Vec (ওয়ার্ড ভেক্টর লার্নিং মডেল)
  • DimensionalityReduction (আকার হ্রাস):

    • LDA LinearDiscriminant Analysis/Fisher Linear Discriminant লিনিয়ার ডিসক্রিমিন্যান্ট অ্যানালিসিস/ফিশার লিনিয়ার ডিসক্রিমিন্যান্ট
    • পিসিএ (প্রধান উপাদান বিশ্লেষণ)
    • আইসিএ (Independent Component Analysis) -এর মাধ্যমে, আমরা বিভিন্ন ধরনের তথ্য সংগ্রহ করতে পারি।
    • SVD (Singular Value Decomposition) হল একক মান বিশ্লেষণ।
    • FA (ফ্যাক্টর অ্যানালিসিস) ।
  • টেক্সট মাইনিং (Text Mining):

    • ভেক্টর স্পেস মডেল (ভিএসএম)
    • Word2Vec (ওয়ার্ড ভেক্টর লার্নিং মডেল)
    • এই শব্দটি ব্যবহার করা হয়েছে “Term Frequency” শব্দটি ব্যবহার করে।
    • টিএফ-আইডিএফ (Term Frequency-Inverse DocumentFrequency) শব্দটির অর্থ হলো “দস্তাবেজের ফ্রিকোয়েন্সি বিপরীত করা”।
    • মিউচুয়াল ইনফরমেশন (এমআই) -এর পক্ষ থেকে প্রকাশিত হয়েছে।
    • ECE (প্রত্যাশিত ক্রস এন্ট্রপি)
    • QEMI (দ্বিতীয় স্তর)
    • আইজি (InformationGain): তথ্য লাভ, তথ্য লাভ, তথ্য লাভ, তথ্য লাভ।
    • আইজিআর (Information Gain Ratio) বা তথ্য লাভের অনুপাত।
    • গিনি কোয়ালিটি (Gini Coefficient)
    • x2 Statistic ((x2 পরিসংখ্যান),
    • TEW (TextEvidence Weight) - টেক্সট ইভিডেন্স ওয়াইট (টেক্সট ইভিডেন্স ওয়াইট) - এর মাধ্যমে প্রমাণের অধিকার প্রদান করা হয়।
    • ওআর (Odds Ratio) -এর প্রভাব
    • N-Gram Model,
    • LSA (Latent Semantic Analysis) -এর ব্যবহারে ল্যাটেন্ট সেম্যান্টিক অ্যানালাইসিস (ল্যাটেন্ট সেম্যান্টিক অ্যানালাইসিস) -এর ব্যবহার করা হয়।
    • পিএলএসএ (ProbabilisticLatent Semantic Analysis) হচ্ছে সম্ভাব্যতার উপর ভিত্তি করে সম্ভাব্য শব্দার্থ বিশ্লেষণ।
    • LDA ((Latent DirichletAllocation সম্ভাব্য ডিরিক্লে মডেল) ।
  • Association Mining (অ্যাসোসিয়েশন মাইনিং):

    • Apriori,
    • FP-growth (ফ্রিকোয়েন্সি প্যাটার্ন ট্রি গ্রোথ)
    • AprioriAll,
    • Spade。
  • Recommendation Engine (পরামর্শ ইঞ্জিন):

    • DBR (Demographic-based Recommendation) নামের একটি অ্যাপ্লিকেশন রয়েছে যা জনসংখ্যার উপর ভিত্তি করে তৈরি করা হয়েছে।
    • CBR (Context-basedRecommendation) -এর অর্থ হল “কন্টেক্সট-ভিত্তিক সুপারিশ” বা “প্রস্তাবিত সুপারিশ”।
    • সিএফ (Collaborative Filtering) নামের একটি ওয়েবসাইটের মাধ্যমে এই ছবিটি শেয়ার করা হয়েছে।
    • ইউসিএফ (ইউজার-ভিত্তিক সহযোগী ফিল্টারিং সুপারিশ)
    • আইসিএফ (আইটেম-ভিত্তিক সহযোগী ফিল্টারিং সুপারিশ) ।
  • Similarity Measure&Distance Measure (সমতুল্যতা পরিমাপ ও দূরত্ব পরিমাপ):

    • ইউক্লিডিয়ান দূরত্ব
    • ম্যানহাটন ডিস্ট্যান্স (Manhattan Distance) নামের একটি ওয়েবসাইটের মাধ্যমে।
    • চেবিশেভ দূরত্ব (Chebyshev Distance) নামের এই ছবিটি ফেসবুকে প্রকাশিত হয়েছে।
    • মিনকোভস্কি দূরত্ব (MinkowskiDistance) একটি আন্তর্জাতিক মানের মানচিত্র।
    • স্ট্যান্ডার্ডাইজড ইউক্লিডিয়ান দূরত্ব
    • মহালানোবিস ডিসটেন্স (ম্যাজিক্যাল ডিসটেন্স)
    • কোসিন (Cosine)
    • HammingDistance/Edit Distance (হ্যামিং দূরত্ব/সম্পাদনা দূরত্ব)
    • জ্যাকার্ড ডিস্ট্যান্স (Jaccard Distance) নামের এই ছবিটি সৌদি আরবের একটি শহরের ছবি।
    • Correlation Coefficient Distance (করেলেশন কোয়েফিক্যান্ট দূরত্ব)
    • তথ্য এন্ট্রপি (Information Entropy)
    • KL ((Kullback-Leibler Divergence KL বিচ্ছিন্নতা / আপেক্ষিক এনট্রপি তুলনামূলকভাবে উঁচু) ।
  • Feature Selection (বৈশিষ্ট্য নির্বাচন):

    • Mutual Information (পরস্পরের তথ্য)
    • ডকুমেন্ট ফ্রিকোয়েন্সি (ডকুমেন্ট ফ্রিকোয়েন্সি)
    • তথ্য লাভ (Information Gain)
    • “এটা আমার কাছে মনে হয় না যে, এটা আমার জীবনের সবচেয়ে বড় ভুল।
    • গিনি কোয়ালিটি
  • Outlier Detection (অতিরিক্ত সনাক্তকরণ):

    • “আমি মনে করি, এটা একটা বড় ভুল, কিন্তু আমি মনে করি এটা একটা বড় ভুল।
    • দূরত্ব-ভিত্তিক
    • Density-based (ঘনত্ব-ভিত্তিক)
    • Clustering-based (ক্লাস্টারিং-ভিত্তিক) ।
  • লার্নিং টু র্যাঙ্ক (লার্নিং টু র্যাঙ্ক):

    • Pointwise:McRank;
    • Pairwise:RankingSVM,RankNet,Frank,RankBoost;
    • Listwise:AdaRank,SoftRank,LamdaMART。