** متابعات ثقافية متميزة ** Blogs al ssadh
هل تريد التفاعل مع هذه المساهمة؟ كل ما عليك هو إنشاء حساب جديد ببضع خطوات أو تسجيل الدخول للمتابعة.
** متابعات ثقافية متميزة ** Blogs al ssadh

موقع للمتابعة الثقافية العامة
 
الرئيسيةالرئيسية  الأحداثالأحداث  المنشوراتالمنشورات  أحدث الصورأحدث الصور  التسجيلالتسجيل  دخول  



مدونات الصدح ترحب بكم وتتمنى لك جولة ممتازة

وتدعوكم الى دعمها بالتسجيل والمشاركة

عدد زوار مدونات الصدح

 

 اصطياد كنز جزيئي(*) أداة برامجية تستنبط مسالك جينية أو پروتينية لم تكن مكتشفة، وذلك بالبحث عبر مئات الآلاف من مقالات الدوريات العلمية.

اذهب الى الأسفل 
كاتب الموضوعرسالة
تابط شرا
فريق العمـــــل *****
تابط شرا


عدد الرسائل : 1314

الموقع : صعلوك يكره الاستبداد
تاريخ التسجيل : 26/10/2009
وســــــــــام النشــــــــــــــاط : 3

اصطياد كنز جزيئي(*)  أداة برامجية تستنبط مسالك جينية أو  پروتينية لم تكن مكتشفة، وذلك بالبحث  عبر مئات الآلاف من مقالات الدوريات العلمية. Empty
07102011
مُساهمةاصطياد كنز جزيئي(*) أداة برامجية تستنبط مسالك جينية أو پروتينية لم تكن مكتشفة، وذلك بالبحث عبر مئات الآلاف من مقالات الدوريات العلمية.



اصطياد كنز جزيئي(*)  أداة برامجية تستنبط مسالك جينية أو  پروتينية لم تكن مكتشفة، وذلك بالبحث  عبر مئات الآلاف من مقالات الدوريات العلمية. SCI2005b21N5-6_H02_004024




عندما قَدِم < A.رزيتسكي>
عام 1996 إلى جامعة كولومبيا كعالم باحث، كان أول مشروع شارك فيه هو إجراء
تقصٍّ في الأدبيات (المؤلفات المنشورة في مجال معين) في محاولة لفهم سبب عدم
موت خلايا الدم البيضاء المسماة الخلايا اللمفاوية
lymphocytes أثناء مرض ابيضاض الدم اللمفاوي المزمن. لقد وجد هذا المختص
بالبيولوجيا والرياضيات بضع مئات من المقالات حول الاستموات
apoptosis (موت الخلايا المبرمج) والسرطان. حتى
لو خَصص كل لحظة من وقته لهذا العمل لكان من المستحيل أن يجري مسحا شاملا لكل
ما وصل إلى المجلات (الدوريات العلمية). ويعلق <رزيتسكي> في أسى: إن هذا الكم
من المعلومات «لا يعدو أن يكون رأس الجبل الجليدي العائم، وهو لا يكفي بحال
لفهم كامل السيرورة.»



قادته الخبرة إلى فكرة كان يمكن لها أن تجعل عمله في هذا المشروع الأول أسهل
بكثير، وهي إيجاد أداة تقصٍّ مؤتمتة يمكن أن تحل محل العمل المرهق للذهن في
العثور على الأدبيات وقراءتها؛ بل قد يمكنها أيضا أن تقوم بأكثر من ذلك بكثير،
إذ يمكنها حتى أن تَدَعَ آلة تجري بحثا من تلقاء نفسها وأن تكتشف الأنماط فيما
بين البيانات بمثل ما يفعله الإنسان.



إن هذه المقاربة الضخمة التي اقترحها <رزيتسكي> كان
قد قام بصياغتها مرشده في مرحلة ما بعد الدكتوراه .ناي> [وهو عالم معروف في مجال النشوء والتطور، يعمل في جامعة ولاية پنسلڤانيا،
واختصاصي بارز في علم وراثة الجماعات[. كان <ناي> قد استقدم <رزيتسكي> إلى
جامعة ولاية پنسلڤانيا عام 1991 من معهد علم الخلية والوراثة، وهو مركز رياضيات
البيولوجيا في نوڤوسيبيرسك بسيبيريا. عندما تلقى <رزيتسكي> هذا العرض كان
الاتحاد السوڤييتي في مرحلة تفكك وسقوط سريع، وكانت القيود على التبادل
الأكاديمي قد خفَّت، بحيث أتاحت للناس من خارج الاتحاد السوڤييتي (السابق)
إمكانية الوصول إلى ثروة المواهب الغنية في مجال الرياضيات الموجودة هناك. كان
<رزيتسكي> قد برز من خلال جهاز النجم السوڤييتي، بطريقة لا تختلف عن تلك الخاصة
بالألعاب الرياضية، وذلك بفوزه في العديد من أولمبيادات الرياضيات في بلده
الأصلي كازاخستان.



كان <ناي> على علم بمهارات اختصاصيي الرياضيات
الروس، لكنه بدأ بسرعة بتعليم <رزيتسكي> أن أي مسألة في الإحصاء يجب أن تعمق
التبصر في البيولوجيا، وألا تكتفي بمجرد إظهار أن تلميذه كان ولدا عظيم البراعة
في الرياضيات. ويتذكر <رزيتسكي> أن <ناي> قال له «من السهل إيجاد بعض اللعب في
الرياضيات التي تكون عديمة الفائدة كليا في البيولوجيا.»



عندما غادر <رزيتسكي> نوڤوسيبيرسك كان يخطط للعودة
بعد عام، لكن مع انهيار الدولة غرق المعهد السيبيري في الفوضى. فساعده <ناي>
على الحصول على الإقامة الدائمة في الولايات المتحدة الأمريكية، وفي عام 1996
انتقل إلى جامعة كولومبيا. وإضافة إلى إغراقه بالكد في تقصي الأدبيات ذات
الصلة، فإن مشروع ابيضاض الدم جعله يدرك أن موضوع الشبكات الجزيئية وأنماط
كيفية ارتباط الجينات أو الپروتينات ببعضها كان فعلاً غير مدروس، جاعلاً منه
مساحة مهمة تتلاقى مع فكر <ناي> بأن الرياضيات يمكن أن تعمل في خدمة البيولوجيا.



في عام 1997 حصل <رزيتسكي> على منحة قدرها 100000
دولار من مركز التقانة المتقدمة التابع للجامعة للبدء بتطوير أداة التقصي
المؤتمتة. قلة من الباحثين في اللغة الطبيعية ـ التي تندرج تحت حقل الذكاء
الصنعي الذي يتعامل مع اللغات التي يستعملها البشر وليس الحواسيب ـ كانوا
يبتكرون أدوات للتقصي البيولوجي واستخلاص البيانات، لكنها كانت موجهة للملخصات
غالبا وليس لكامل نصوص المقالات. بدأ <رزيتسكي> بتصميم نظام لن يتقصى فقط كامل
المقالات لكن أيضا يتعرف شبكات من العلاقات المهملة فيما بين الجينات
والپروتينات. وبصفة أساسية، يستنبط هذا النظام معارف ونظريات جديدة بفحص كمٍّ
كبير من المعلومات القديمة. وحول الأساس المنطقي لبناء النظام الذي أصبح معروفا
باسم جين ويز GeneWays ، يقول <رزيتسكي> «إن
العلماء يرون فقط جزءا صغيرا مما هو معروف.» إن الطاقة الكلية للتنقيب في النص
يمكن حتى أن تشجع على اكتشاف سبل جديدة يمكن أن تُختبر لاحقا في المختبر.



ولكي يصبح أكثر من مجرد گوگل(1)
Google مبجل، كان على النظام
GeneWays أن يدمج وحدات برامجية متعددة، تقوم كل
وحدة بمهمة محددة مثل: تحميل المقالات من الوِب وتتبُّع مختلف المسالك وإصدار
مخططات تصور بدقة كل جينة أو پروتين وكيف ترتبط ببعضها. بعد تحميل مقالة
وتحويلها إلى نص عادي plain
text بتجريدها من لغة تأشير النصوص الفائقة(2)
hypertext markup
language HTML
، فإن ترميز الوثيقة نفسه يمكن أن يشكل تحديا ـ فالبرامجيات يجب أن «تفهم»
الاصطلاحات التي يذكرها العلماء. إن الاسم «p53»
يمكن أن يشير إلى جينة أو پروتين أو رنا مرسال (رسول)
m-RNA حسب استعماله في الجملة. أكثر من ذلك، بالنسبة إلى بعض الجينات،
مثل جينة الشباب الدائم في نبات أرابيدوپسس
ثالياناArabidopsis thaliana أو جينة
أمهات ضد ديكاپنتاپليجيك(3) mothers
against decapentaplegic
في ذبابة الفاكهة، فإن وظيفتها كدنا DNA نافع
تختفي خلف قناع تصنعه نزوات مكتشفيها.



وُجهت أفضل أدوات الإحصاء والذكاء الصنعي لحل هذه
المسألة. إن الجزء الأكثر فهمًا من هذا الطور المتعلق بالتعريف وإزالة الإبهام،
هو عبارة عن محرك يضع عُلاَّمات على أجزاء من الكلام يساعد بدوره وحدات أخرى
على إدراك جمل اسمية مثل «كابت الورم p53».
والجزء المتبقي من معالج المعلومات هذا هو عبارة عن مَيْزَم
miasma من الرياضيات وعلم الحاسوب المكون من
مشابهات أجهزة دعم الناقل support-vector
machines ونماذج ماركوڤ المخبَّأة
hidden Markov
models ومصنِّفات ناييڤ بايز
Naive Bayes
classifiers وخوارزميات شجرة القرار(4)
decision-tree
algorithms.



متى تم تعرّف شيء على أنه جينة أو پروتين أو رنا أو
جزيء عضوي صغير، يقوم النظام الحاسوبيGeneWays
بهيكلة المعلومات باستخدام وحدة إعراب تسمىGENIES
تمكن الحاسوب من «قراءة» كل جملة من المقالة. لذا توجه <رزيتسكي> وفريقه إلى
موارد جامعة كولومبيا الغنية في مجال اللغة الطبيعية.



في عام 1995 قادت الباحثة .فريدمان> فريقا [في جامعة كولومبيا] أتم نظام لغة طبيعية عرف باسم
MedLEE. مكن هذا النظام من استخلاص المعلومات
النصية من السجلات الطبية لصور الأشعة السينية للصدر فيما يعرف الآن بمستشفى
بريسپيتيريان نيويورك (وسجلات أخرى لاحقا) واستخدامها في نظم المعلومات
المؤتمتة المتعددة في المستشفى. أخذ كل من <فريدمان> (هي الآن أستاذة)
و<رزيتسكي> أجزاء من النظام MedLEE واستعملوها
كأساس لتطوير قواعد متخصصة بالبيولوجيا الجزيئية. إن هذه القواعد توصِّف
العلاقات بين كينونات جزيئية متميزة.



يمكن أن يبدأ النظامGENIES
هذه السيرورة برفع الجملة التالية من مقالة في البيولوجيا الجزيئية:

أفادت دراسات حديثة أن الپروتين
mdm2 يحرض التدرك (التقوض) السريع
للپروتينp53 عبر سبيل اليوبيكويتين الحالّ
للپروتين.



ثم يمكن أن يأخذ وصف أحد الپروتينات،
mdm2، المحرض على تدرّك پروتين آخر
هوp53 عبر سبيل إنزيمي يشمل پروتينا هو
اليوبيكويتين ويترجم ذلك كالتالي:[فعل محرض،

[جينة أو پروتين mdm2]،

[فعل تدريك (تقويض)،

[سيرورة سبيل اليوبيكويتين الحال للپروتين]،

[جينة أو پروتين،p53
]]] .



ثم يمكن لقاعدة بيانات ـ هي قاعدة تآثر المعارف ـ أن
تخزن وتسمح بالدخول لما يسمى شجرة دلالية semantic
tree. يمكن استعمال أكثر من مليوني عبارة وحيدة،
مثل «mdm2 يحرض تدرّك p53»،
في البحث في قاعدة البيانات وإيجاد العلاقات بين الجزيئات أو بناء شبكات جديدة
لتآثرات جزيئية. تأتي هذه العبارات من نحو 250000 مقالة كاملة النص من 80 مجلة
في البيولوجيا الجزيئية؛ ثم تقوم وحدات أخرى من
النظامGeneWays بتحديد مدى وثوقية reliability
عبارة ما وتبحث عن علاقات إضافية وتُظهر مختلف السبل بيانيا.



نالت فكرة نمذجة التآثرات الجزيئية بدءا من الأدبيات
الموجودة قبول المجتمع العلمي الواسع ببطء. فقد استمر لسنوات رفض طلبات المنح
المقدمة من <رزيتسكي> إلى المعاهد الوطنية للصحة (NIH)
ومؤسسة العلوم الوطنية (NSF). إن محكِّمي المعاهد
الوطنية للصحة الذين نظروا في طلبات المنح ـ وحتى علماء كبار ـ أعربوا عن
اعتقادهم بأن النظامGeneWays إما مستحيل التنفيذ
أو أنه فقط سيعيد اكتشاف الواضح أصلا، كاشفا عن سبل كان يجب على العالم الخبير
أن يحفظها عن ظهر قلب خلال دراساته العليا. بدأ دفق المنح المالية ينشط منذ نحو
خمس سنوات بدون سبب واضح، ولو أنه بحلول ذلك الوقت كان حقل المعلوماتية الحيوية
قد نال مكانته.



في عام 2001، بدأ <رزيتسكي> بالتعاون مع
[وهو اختصاصي في علم الوراثة من جامعة ييل]. ساعد <وايت> على توسيع إطار قاعدة
تآثر المعارف بإدخاله البيانات الأولية للجينوميات(5) والپروتيوميات(6) الخاصة
بذبابة الفاكهة دروسوفيلا ميلانوگاستر Drosophila
melanogaster. بينت رسوم بيانية مشتقة من بيانات
نصية وتجريبية وجود إمكانيات جديدة مختلفة لجينات مسؤولة عن النمو المبكر
لذبابة الفاكهة، وهي جينات يمكن إجراء البحوث عليها لاحقا في المختبر. يقول
<وايت> «يسمح لنا هذا بالنظر إلى العديد من زمر البيانات الضخمة المختلفة
بطريقة منهجية وفي وقت واحد. إنه مثل برامجيةPubMed
حول الستيرويدات» التي تُعتبر مرجعا لقاعدة بيانات الطب الحيوي كلية الوجود(7)
ubiquitous.



في مشروع آخر، ذُكر في مقالة نشرت بتاريخ 19/10/2004
في سجلات وقائع الأكاديمية الوطنية للعلوم بالولايات المتحدة
Proceedings of the
National Academy
of Sciences
USA، عمل <رزيتسكي> مع باحثين من جامعة كولومبيا
لإيجاد جينات جديدة قد تسبب مرض ألزايمر Alzheimer’s
disease. بدأ النظام
GeneWays بأربع جينات (بمثابة «بذرة») لها دور مؤكد في مرض ألزايمر؛ ثم
بناء على تحليل الأدبيات، أنشأ نموذجا لجينات وپروتينات تتآثر مع هذه الجينات
الأربع. وقد افُترِض أن الجينات ذات العدد الأدنى من الروابط الوسيطة مع
الجينات البذرة تكون الأكثر احتمالا كمرشحات للألزايمر. إن الجينات التي تم
تعرّفها ماثلت إلى حد بعيد تلك التي حددها خبير باستخدام الطرق اليدوية.



تقصٍّ معمق: التنقيب عن معارف جديدة بدءا من
معلومات قديمة(**)


تقرأ برامجية
النظام GeneWays عشرات آلاف الأوراق
العلمية وتضع ملفات المعلومات بشكل آلي في قاعدة بيانات. كإجابة عن
سؤال حول جزيء ما أو سبيل (مسلك) ما، تستطيع قاعدة البيانات معرفة
كيفية اتصال ذلك الجزيء بجزيئات أخرى، إنها سيرورة تسمح باكتشاف
تآثرات جزيئية جديدة وسبل جديدة. إن التنقيب في النص يسمح بإجراء
تقصٍّ في الأدبيات أكثر اتساعا مما يمكن أن يقوم به البشر باستخدام
الطرق اليدوية.

1 تحميل النص
الكامل لأوراق علمية إلى الحاسوب بدءا من خدمات مباشرة
Online.

2 يقوم برنامج

بفك رموز
الشكل المحمل، مثل شفرة HTML.







اصطياد كنز جزيئي(*)  أداة برامجية تستنبط مسالك جينية أو  پروتينية لم تكن مكتشفة، وذلك بالبحث  عبر مئات الآلاف من مقالات الدوريات العلمية. SCI2005b21N5-6_H02_004025


3 يخضع النص
لمراحل معالجة أخرى مثل تحديد إن كان اصطلاح تقاني خاص يشير إلى
جينة أو پروتين أو جزيء صغير أو نوع إحيائي.

4 يترجَم النص

المرشَّح
بوساطة وحدات الإعراب GENIES إلى شكلٍ
قابل للقراءة الآلية قبل إيجاد العلاقات بين مختلف الكينونات
الجزيئية.

5 تعبأ
المعلومات في قاعدة بيانات.

6 تستطيع
قاعدة البيانات، عند الطلب، أن تحدد علاقات جزيء معين مثل
IL-2 (الإنترلوكين2 ) مع پروتينات
أخرى مثل Rap1.

7 يمكن لهذه
التآثرات أن تظهر بيانيا، إما ببيان صلة جزيء بجزيئات أخرى كما هو
مبين هنا أو برسم سبل جزيئية معقدة.





إن دقة التنقيب المؤتمت لنصٍّ ما لا تعادل ـ وربما
لن تعادل أبداـ عمل المخلصين من البشر الذين يمحصون الأدبيات الوثيقة تلو
الوثيقة. يقول [وهو باحث اختصاصي
بالمعلوماتية الحيوية فيSRI
International ] «إن
النظامGeneWays قَيِّم لأننا لا نملك العدد الكافي من البشر لمسح
الأدبيات، إلا أنه ليس قيما إلى الدرجة التي يمكن فيها أن يحل محل البشر.» لكن
تطور البرنامج قد تقدم بشكل سمح لجامعة كولومبيا بترخيصه لشركة مبتدئة صغيرة في
مدينة نيويورك اسمها ExerGen
Biosciences.



حتى مع هذا الاتفاق، مازال بإمكان <رزيتسكي> [الذي
صار الآن أستاذا مثبتاtenured ] متابعة تطوير
النظامGeneWays في جامعة كولومبيا على أساس غير
تجاري. لو كان لـ <رزيتسكي> ما يريد، فإن النظام
GeneWays سينمو حتى تغطي قاعدة معرفته كل البيولوجيا والكيمياء. إنه
يقول «من الناحية التقانية، يمكن القيام بذلك تماما». وفي الوقت الحالي يعمل <رزيتسكي>
و <وايت> ومساعدوهما على توسيع إطار النظامGeneWays
باستعمال تحاليل الأدبيات لبيان مقدار التوافق القائم بين المختصين بالبيولوجيا.



لقد وجدوا، على المستوى الأكثر أساسية، أن غريزة
القطيع (الميل إلى التجمع مع الأقران سعيا وراء الدعم) هي التي تسود. إن عبارة
بسيطة ـ مثل «الپروتينA ينشط الجينةB
» ـ تؤخذ عادة كحقيقة لا ريب فيها، و«كنموذج ميكروي» يجعل من الصعب مخالفة
المعارف السائدة حتى لو ووجهت ببرهان جديد. إن توثيق سيرورة التفكير الجماعي
يبين كيف يسمح النظام GeneWays بقراءة أعمق لما
نشر في هذا المضمار كما يظهر القدرة الكامنة لعملية تنقيب النص في توسيع
التحليل البيبليوغرافي لتوحيد المجال الكامل للمعرفة البشرية.
الرجوع الى أعلى الصفحة اذهب الى الأسفل
مُشاطرة هذه المقالة على: reddit

اصطياد كنز جزيئي(*) أداة برامجية تستنبط مسالك جينية أو پروتينية لم تكن مكتشفة، وذلك بالبحث عبر مئات الآلاف من مقالات الدوريات العلمية. :: تعاليق

لا يوجد حالياً أي تعليق
 

اصطياد كنز جزيئي(*) أداة برامجية تستنبط مسالك جينية أو پروتينية لم تكن مكتشفة، وذلك بالبحث عبر مئات الآلاف من مقالات الدوريات العلمية.

الرجوع الى أعلى الصفحة 

صفحة 1 من اصل 1

صلاحيات هذا المنتدى:لاتستطيع الرد على المواضيع في هذا المنتدى
** متابعات ثقافية متميزة ** Blogs al ssadh :: منبر البحوث المتخصصة والدراسات العلمية يشاهده 23456 زائر-
انتقل الى: